
-
Euro de basket: les Bleues ont coulé au Pirée
-
F1: le Britannique Lando Norris (McLaren) remporte le GP d'Autriche
-
Wimbledon: jouer sur gazon, un art difficile
-
Plus de 20 Palestiniens tués dans l'offensive israélienne à Gaza, selon les secours
-
Vives condamnations après les propos contre Israël de rappeurs au festival de Glastonbury
-
Hong Kong: dissolution de l'un des derniers partis d'opposition face à une "immense" pression
-
MotoGP: Marc Marquez s'impose dans la Cathédrale de la vitesse
-
La canicule s'intensifie, la vigilance orange étendue à 84 départements lundi
-
"Des chemins pour l'écologie sont à portée de main", affirme Bayrou
-
Censure, dissolution: Bayrou de plus en plus menacé
-
Rallye: en Grèce, Tänak offre à Hyundai sa première victoire de l'année, devant les Français
-
La canicule s'intensifie dans le sud de l'Europe
-
Top 14: Toulouse, la force de l'habitude, la quête insatiable
-
Top 14: l'UBB rate encore la dernière marche mais a réduit l'écart
-
Vives condamnations après les propos anti-Israël de rappeurs au festival de Glastonbury
-
Une Britannique finit une course record à travers l'Australie
-
Après Nice, Cannes limite le nombre de paquebots géants dans sa baie
-
Mondial des clubs: le PSG joue gros contre Messi et les vieilles gloires de l'Inter Miami
-
Cyclisme: Lapeira et le redoutable défi du doublé national
-
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
-
Aux Etats-Unis, une fabrique de boîtes en fer-blanc et le "chaos" des droits de douane
-
Le Royaume-Uni appelé à en faire plus pour ses ressortissants arbitrairement détenus à l'étranger
-
Pavel Talankin, "Monsieur Personne" qui a filmé la propagande dans les écoles russes
-
Coquilles Saint-Jacques: l'écloserie qui lutte contre l'épuisement de la ressource
-
Trail: les Américains Olson et Hall vainqueurs surprise de la Western States 100, Jornet 3e
-
Mondial des clubs: Palmeiras force le verrou Botafogo et passe en quart
-
Brésil: menacé de prison, Bolsonaro mobilise ses partisans pour "la justice"
-
La canicule s'intensifie, la quasi-totalité de la France assommée par la chaleur
-
Environ 140.000 manifestants en Serbie pour réclamer des élections
-
Top 14: Toulouse vient à bout de Bordeaux-Bègles et s'offre un triplé
-
"Questions pour un champion" bientôt cantonné aux week-ends
-
ATP: Taylor Fritz réussit la passe de quatre à Eastbourne
-
F1: Norris se rassure en écrasant les qualifications en Autriche
-
Gaza: la Défense civile annonce 37 morts dans des frappes ou tirs israéliens
-
Ligue 1: Paul Pogba signe à Monaco pour rebondir après les ennuis
-
La quasi-totalité de la France en vigilance orange canicule dimanche
-
Cyclisme: le FDJ écrase la course, Le Net sacrée
-
A Paris, une marche des fiertés remontée "contre l'internationale réactionnaire"
-
WTA 500 de Bad Homburg: Pegula prive Swiatek d'un premier titre depuis un an
-
MotoGP: Marc Marquez impérial dans le sprint du GP des Pays-Bas
-
Voile: la Course des caps, un parcours à "pièges" pour la reprise post-Vendée Globe
-
Le sud-est suffoque, la canicule va gagner plus de la moitié de la France
-
Boxe: Mbilli éteint Sulecki dès le premier round, attend toujours Canelo
-
La Western States 100, expérience "mystique" et Graal du trail américain
-
Thaïlande: une manifestation réclame la démission de la première ministre
-
En Syrie, la sécheresse menace la récolte de blé
-
Trump éreinte les médias après les frappes américaines en Iran
-
A Maracaibo, la capitale pétrolière du Venezuela, on fore pour l'eau
-
Au Maroc, des élèves repêchent leurs camarades qui ont décroché
-
Au Portugal, une crise du logement qui n'en finit pas

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
I.Yassin--SF-PST