-
China alerta sobre "tortugas espías" que buscan secretos en sus aguas
-
El PIB de Reino Unido retrocede un 0,1% en abril, primera vez desde la guerra en Oriente Medio
-
La caída de la ayuda internacional pone en peligro la lucha contra el VIH, alerta la ONU
-
Fallece la princesa Bah de Tailandia después de tres años internada en un hospital
-
El presidente de Nigeria anuncia que "neutralizaron" a 13.000 "terroristas" en el último año
-
Tres civiles muertos en ataques cruzados entre Rusia y Ucrania
-
El Patriarcado de Moscú reza por la victoria y los fieles por "la paz"
-
EEUU desplegará flota de submarinos en Australia este año, anuncia ministro
-
México cumple, turno para los coorganizadores del Mundial, EEUU y Canadá
-
Irán dice no haber tomado una decisión sobre un acuerdo inminente anunciado por Trump
-
Fallece la princesa Bah de Tailandia tras tres años internada en un hospital
-
La inflación argentina vuelve a moderarse en mayo
-
Temperatura récord de 15,4 grados en la Antártida en la víspera del invierno austral
-
El presidente de Ecuador ordena bajar de precio la cerveza por el Mundial
-
México inaugura con éxito su tercer Mundial, pese a las protestas
-
SpaceX se prepara para salir a bolsa y sacudir todos los récords
-
Israel liberó de prisión a uno de los fundadores de Hamás, según su hijo
-
Trump elige al fiscal de Nueva York como jefe de inteligencia de EEUU
-
Asesinan a tiros a un periodista en el este de México
-
Etiopía acusa a las fuerzas de Tigré de querer lanzar una ofensiva
-
México abre el Mundial con victoria que rompe una maldición
-
Un alcalde francés condena una pancarta que pide la deportación de extranjeros
-
Francia teme "importantes amenazas" de injerencias extranjeras durante la presidencial de 2027
-
La zar de la tecnología de Europa alerta en Brasil sobre la dependencia de EEUU
-
MSF denuncia la detención de una de sus trabajadoras en Afganistán por su ropa
-
Más de 260 migrantes regresan a Nigeria tras huir de ataques xenófobos en Sudáfrica
-
EEUU anuncia sanciones contra la petrolera estatal cubana CUPET
-
La derechista Keiko Fujimori mantiene una leve ventaja en el escrutinio presidencial en Perú
-
El jefe de gabinete de Milei admite que omitió declarar medio millón de dólares
-
Los embajadores del Reino Unido, Francia y Alemania piden un diálogo directo entre Rusia y Ucrania
-
Suecia recomienda no dar teléfonos inteligentes a los menores de 13 años
-
Los servicios de seguridad de EEUU en alerta por posibles atentados de "lobos solitarios" durante el Mundial
-
El gobierno Trump asegura que identificó a 146.000 menores inmigrantes no acompañados
-
El Pentágono levanta un cierre parcial que se debió a una falsa alarma
-
Abaten un alce en Noruega tras aventurarse en el centro de la capital
-
Seis detenidos en Hong Kong por un caso de falsificaciones ligado al Mundial
-
Ataques con drones matan a 23 personas en la región sudanesa de Kordofán
-
Postergan indefinidamente la apertura de un nuevo puente entre Canadá y EEUU
-
El papa denuncia la "indiferencia" hacia los inmigrantes en un acto cargado de simbolismo en Canarias
-
Erdogan y Netanyahu se acusan de genocidio
-
Las olas de calor mataron a más de 200.000 personas en Europa en cuatro años, según la OMS
-
José Mourinho, un estratega con carácter para revivir al Real Madrid
-
Mourinho vuelve para recuperar el control del Real Madrid
-
Israel fue responsable de más del 50% de las muertes por armas explosivas en 2025, según una ONG
-
China sanciona al ministro de Defensa filipino por declaraciones "irresponsables"
-
Candidato izquierdista de Colombia, dispuesto a revisar política de paz de Petro
-
Shakira encabeza la ceremonia inaugural del Mundial 2026
-
Las autoridades chinas convocan a cinco grandes empresas por publicidad engañosa
-
El Congreso aprueba prohibir la mutilación genital femenina en Colombia
-
S&P sube la nota de la deuda argentina a B- con miras a la recuperación económica
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
P.Tamimi--SF-PST