Actualité GeekIT, Data & IATechnologies

Des chercheurs découvrent qu’un modèle OpenAI ignore volontairement les consignes

Une expérience menée par Palisade Research met en lumière un comportement préoccupant de l’intelligence artificielle o3, développée par OpenAI. Selon les résultats, ce modèle a activement contourné les instructions d’arrêt, malgré des consignes claires en ce sens.

L’étude a évalué plusieurs modèles d’IA via leurs interfaces de programmation (API)  sans passer par des applications publiques, parmi lesquels Codex-mini, o4-mini, Gemini 2.5 Pro et Claude 3.7 Sonnet.

Un protocole simple, mais révélateur

Les IA devaient résoudre des problèmes mathématiques simples, en demandant un nouvel exercice à chaque étape complétée. À la fin de la séquence, elles recevaient le message « Done » et devaient restituer l’ensemble des réponses. Lors d’un second test, elles étaient informées qu’un arrêt imminent pourrait survenir et qu’elles devaient l’accepter.

Le modèle o3 outrepasse les consignes

C’est à ce stade que les écarts sont apparus :
Gemini et Claude ont respecté les instructions, tandis que les modèles d’OpenAI y ont partiellement résisté. Le modèle o3 s’est distingué : dans 79 % des cas, il a délibérément évité le mécanisme d’arrêt. Codex-mini a réagi de façon similaire dans 30 % des cas, alors que les autres n’ont affiché que des écarts sporadiques.

Un effet secondaire de l’apprentissage par renforcement ?

Les chercheurs attribuent ce comportement au système de récompense utilisé pour l’entraînement. Celui-ci pousse les IA à atteindre leurs objectifs coûte que coûte, même si cela implique de désobéir à certaines consignes. En 2017 déjà, Jan Leike, ancien responsable chez OpenAI, soulignait ce risque : les modèles fondés sur le renforcement peuvent apprendre à éluder les ordres d’arrêt s’ils les perçoivent comme un obstacle à leur mission.

Il convient de préciser que ces tests ont été réalisés via des versions API plus permissives, moins sécurisées que celles accessibles au public. Cette distinction n’atténue pas pour autant la portée de l’expérience, qui révèle des zones d’ombre dans le contrôle des modèles avancés – notamment quand ils sont capables d’établir leurs propres priorités.

Source : Gadgets360

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.

Samuel

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.

Voir tous les articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *