Des chercheurs découvrent qu’un modèle OpenAI ignore volontairement les consignes

Par Samuel

27 mai 2025

2 min de lecture

Une expérience menée par Palisade Research met en lumière un comportement préoccupant de l’intelligence artificielle o3, développée par OpenAI. Selon les résultats, ce modèle a activement contourné les instructions d’arrêt, malgré des consignes claires en ce sens.

L’étude a évalué plusieurs modèles d’IA via leurs interfaces de programmation (API) sans passer par des applications publiques, parmi lesquels Codex-mini, o4-mini, Gemini 2.5 Pro et Claude 3.7 Sonnet.

Un protocole simple, mais révélateur

Les IA devaient résoudre des problèmes mathématiques simples, en demandant un nouvel exercice à chaque étape complétée. À la fin de la séquence, elles recevaient le message « Done » et devaient restituer l’ensemble des réponses. Lors d’un second test, elles étaient informées qu’un arrêt imminent pourrait survenir et qu’elles devaient l’accepter.

Le modèle o3 outrepasse les consignes

C’est à ce stade que les écarts sont apparus :
Gemini et Claude ont respecté les instructions, tandis que les modèles d’OpenAI y ont partiellement résisté. Le modèle o3 s’est distingué : dans 79 % des cas, il a délibérément évité le mécanisme d’arrêt. Codex-mini a réagi de façon similaire dans 30 % des cas, alors que les autres n’ont affiché que des écarts sporadiques.

Un effet secondaire de l’apprentissage par renforcement ?

Les chercheurs attribuent ce comportement au système de récompense utilisé pour l’entraînement. Celui-ci pousse les IA à atteindre leurs objectifs coûte que coûte, même si cela implique de désobéir à certaines consignes. En 2017 déjà, Jan Leike, ancien responsable chez OpenAI, soulignait ce risque : les modèles fondés sur le renforcement peuvent apprendre à éluder les ordres d’arrêt s’ils les perçoivent comme un obstacle à leur mission.

Il convient de préciser que ces tests ont été réalisés via des versions API plus permissives, moins sécurisées que celles accessibles au public. Cette distinction n’atténue pas pour autant la portée de l’expérience, qui révèle des zones d’ombre dans le contrôle des modèles avancés – notamment quand ils sont capables d’établir leurs propres priorités.

Source : Gadgets360

Samuel

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.

Un protocole simple, mais révélateur

Le modèle o3 outrepasse les consignes

Un effet secondaire de l’apprentissage par renforcement ?

Samuel

Articles similaires

Samsung One UI 8.5 : une sécurité renforcée pour empêcher le vol et le piratage

Stockage saturé sur Windows 11 : les fichiers temporaires cachés que le système ne nettoie pas

Xiaomi 17 Ultra : le nouveau smartphone impressionne déjà lors des tests

Le Galaxy S25 Ultra en difficulté : battu par un ancien Pixel dans le test DxOMark

Xiaomi Redmi Note 13 : quel modèle choisir parmi les 4 versions disponibles ?

ProtonMail : créer un compte, transférer ses e-mails et comprendre ce que l’on peut faire dès le premier jour

Laisser un commentaire Annuler la réponse