
-
Camiones de basura musicales para concienciar a los habitantes de Taiwán
-
Aterrados por las redadas, los migrantes de Los Ángeles se encierran en casa
-
Trump llama "estúpido" al presidente de la Fed por mantener las tasas
-
EEUU anuncia sanciones contra la Autoridad Palestina
-
Un rayo de 829 km establece el récord mundial validado por la Organización Meteorológica Mundial
-
Ucrania restablece la independencia de instancias anticorrupción
-
La UE busca dejar al sector vitivinícola fuera del alcance de los nuevos aranceles acordados con EEUU
-
Zelenski pide aumentar la presión para "un cambio de régimen" en Rusia, tras un letal bombardeo en Kiev
-
Quintonil, una historia mexicana de amor en la cumbre de la gastronomía mundial
-
El Parlamento de Ucrania aprueba restablecer la independencia de instancias anticorrupción
-
Noruega albergará un centro de datos para IA gestionado por una asociación que incluye a OpenAI
-
Alemania considera que Israel está "cada vez más aislado" en la cuestión palestina
-
Trump celebra los aranceles: "Hacen que EEUU sea grande y rico de nuevo"
-
Nueva Zelanda da marcha atrás y autoriza la exploración de hidrocarburos en el mar
-
Zelenski pide aumentar la presión para "un cambio de régimen" en Rusia, tras letal bombardeo en Kiev
-
Autoridades chinas admiten "errores" en gestión de lluvias que dejaron al menos 44 muertos
-
El primer ministro de Lituania renuncia en medio de una investigación por corrupción
-
Japón levanta la advertencia de tsunami después del sismo en Rusia
-
El desempleo de la eurozona en junio se mantuvo estable en el 6,2%
-
Trump anuncia aranceles contra Brasil e India y un acuerdo con Corea del Sur
-
Suecia exige que la UE congele la parte comercial de su acuerdo de asociación con Israel
-
China convoca a Nvidia por "graves problemas de seguridad" en chips para IA
-
El BBVA revisa al alza sus objetivos tras un beneficio semestral récord
-
La actividad industrial en China cae en julio al estancarse el diálogo comercial con EEUU
-
El Banco de Japón mantiene inalterado su principal tipo de interés
-
Al menos seis muertos, incluido un niño, en un ataque ruso contra la capital ucraniana
-
De TikTok a Instagram, el Vaticano promueve a los "misioneros digitales"
-
Camboya urge a Tailandia a devolver a los soldados capturados en choques fronterizos
-
Más de 50 ºC en Turquía: "nadie puede acostumbrarse a un calor así"
-
Tata Motors comprará el italiano Iveco Group por USD 4.400 millones
-
Confirmada la muerte de excampeona olímpica de biatlón Laura Dahlmeier en Pakistán
-
AFA y River rechazan medida de Milei que aumenta impuestos a clubes
-
Canadá anuncia intención de reconocer el Estado palestino en septiembre
-
Economía de México crece 1,2% en el segundo trimestre entre amenazas de aranceles de EEUU
-
"¡Nuestra para siempre!": colonos israelíes marchan por un retorno a Gaza
-
Canadá tiene intención de reconocer el Estado palestino en Asamblea General de ONU
-
Contraloría panameña pide anular concesión a empresa hongkonesa que opera puertos en el canal
-
Millones regresan a sus casas tras levantarse alertas de tsunami en el Pacífico
-
Chile respira aliviado tras ser excluido del arancel al cobre de Trump
-
Un volcán entra en erupción en el extremo oriente de Rusia tras el terremoto
-
Trump oficializa aranceles del 50% a Brasil, con excepciones
-
Trump alcanza acuerdo con Corea del Sur y amenaza a India con aranceles del 25%
-
Alexandre de Moraes, el poderoso juez brasileño en la mira de Trump
-
Fed mantiene tasas sin cambios pese a oposición de dos gobernadores y de Trump
-
Meta supera las expectativas en 2T y acciones se disparan
-
TikTok lanza herramienta de desmentido comunitario en EEUU
-
Último adiós de miles de fans a Ozzy Osbourne en Birmingham
-
La Defensa Civil de Gaza reporta 30 muertos por disparos israelíes
-
A bordo de un C-130 jordano que lanza ayuda a Gaza desde el aire
-
Artistas y científicos reproducen el rostro de una mujer prehistórica

La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
P.Tamimi--SF-PST