
-
Sous les bombardements israéliens à Gaza-ville, la mort ou le difficile exode
-
Afghanistan: le couple de Britanniques âgés libéré par les talibans arrivé à Londres
-
Angleterre: Liverpool vainqueur du derby et de ses cinq premiers matches
-
Plusieurs grands aéroports européens perturbés par une cyberattaque
-
Ligue 1: Geronimo Rulli, le mur marseillais
-
"Un gros challenge": David Guetta s'offre son premier Stade de France en 2026
-
Les Mondiaux de cyclisme au Rwanda, une grande première en Afrique
-
Ligue 1: Lucas Chevalier, déjà classique au PSG
-
Matignon propose à l'intersyndicale une rencontre avec Lecornu mercredi, selon des sources syndicales à l'AFP
-
Italie: le mousseux d'Asti réduit sa production face aux tempêtes des marchés
-
La menace plane à nouveau sur les calèches de Central Park
-
Mondial-2026: en Chine, les droits de douane de Trump plombent les commandes
-
Mondial de rugby: les Bleues pour faire tomber les invincibles et leur plafond de verre
-
Athlétisme : Keely Hodgkinson, "badass" sur la piste sans se prendre au sérieux
-
Afghanistan: un couple de Britanniques âgés libéré par les talibans attendu à Londres
-
Le parquet vénézuélien réclame une enquête de l'ONU sur les bateaux détruits par les Etats-Unis
-
Trump évoque des progrès sur TikTok et annonce qu'il ira en Chine
-
Trump impose des frais de 100.000 dollars par an pour un visa emblématique de la tech
-
Des experts nommés sous Trump sèment les doutes sur les vaccins contre le Covid-19
-
Ligue 1: Tessmann soulage Lyon
-
Argentine: Milei sur la défensive dénonce une "panique politique" visant ses réformes et le peso
-
Wall Street termine la semaine en hausse
-
Inquiétude et tensions parmi les éleveurs bovins face à un nouveau foyer de dermatose nodulaire
-
Le procès de militants du suicide assisté, tribune pour l'aide à mourir
-
Vidéo d'une femme violentée par la police à Marseille: le parquet ouvre une enquête
-
Affaire Kimmel : des humoristes américains dénoncent la "censure"
-
La Bourse de Paris termine la semaine stable
-
Les avions de l'Otan interceptent trois MIG-31 russes dans le ciel estonien
-
Le ballet des départs clandestins vers l'Angleterre, en dépit des expulsions
-
Trump évoque des "progrès" sur TikTok et annonce une rencontre avec Xi cet automne
-
Les Bourses européennes terminent la semaine à plat
-
Biathlon: sixième titre olympique pour Fourcade, 15 ans après Vancouver
-
Afghanistan: un couple de Britanniques âgés libéré par les talibans
-
Nucléaire iranien: le Conseil de sécurité de l'ONU valide le retour des sanctions contre Téhéran
-
L'armée israélienne va frapper Gaza-ville avec "une force sans précédent", appelle la population à évacuer
-
Mondiaux d'athlétisme: Lyles et Jefferson-Wooden règnent sur le 200 m
-
Wall Street poursuit sa course aux records
-
Le superviseur présumé de l'attentat antisémite de la rue des Rosiers arrêté en Cisjordanie par les Palestiniens
-
Retour dans les tours de Notre-Dame
-
Athlétisme: Noah Lyles, plus rapide que tous ses maux
-
L'Ukraine à la recherche de fonds étrangers pour sa "Silicon Valley" militaire
-
L'intersyndicale donne jusqu'à mercredi à Lecornu pour répondre "à leurs revendications"
-
Norvège: la princesse Mette-Marit en arrêt maladie
-
Mondial de volley: fin de cycle et nouvelle génération chez les Bleus
-
Dans l'est de l'Ukraine, une guerre de clocher à la portée politique
-
Les stars Tim Burton et Monica Bellucci annoncent leur séparation à l'AFP
-
Aide à la conduite: le chinois Xiaomi va corriger un défaut logiciel sur 110.000 véhicules
-
La coopération météo internationale, elle aussi chamboulée par Trump
-
Grâce à la science participative, un astéroïde suivi à la trace jusqu'à son impact
-
Recherche sur Alzheimer: quelques avancées et beaucoup de débats

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
I.Yassin--SF-PST