Près d’un million de tâches réalisées par des agents de codage ont déjà été analysées par les systèmes internes de Google DeepMind. Le laboratoire veut limiter les risques si ses agents d’intelligence artificielle échappent aux mécanismes classiques de contrôle. Sa stratégie consiste à les traiter comme de possibles menaces internes.
Google DeepMind ne veut plus dépendre seulement de l’alignement
Google DeepMind a présenté une feuille de route pour réduire les risques liés à l’usage d’agents IA au sein de sa propre organisation de recherche.
Le document, publié afin que d’autres laboratoires puissent s’inspirer de cette approche, propose une sécurité à plusieurs niveaux. Elle doit continuer à fonctionner même si les mécanismes traditionnels d’alignement échouent.
L’alignement reste un enjeu central : il vise à garantir que les actions d’une IA correspondent aux intentions, aux valeurs et aux règles définies par les humains. Mais Google DeepMind reconnaît que cet objectif pourrait ne jamais être totalement atteint.
L’entreprise propose donc de considérer les agents IA comme de potentiels « initiés rebelles » et d’appliquer des méthodes proches de la cybersécurité classique.
Des agents IA capables d’agir plus vite qu’un humain
Rohin Shah, responsable de l’équipe AGI Safety & Alignment chez Google DeepMind, résume l’enjeu : si la première ligne de défense échoue, il faut tout de même pouvoir réduire les dégâts.
Cette logique s’inspire de la prévention des menaces internes, déjà utilisée en sécurité informatique. La différence est majeure : une IA peut agir beaucoup plus vite et à une échelle bien plus large qu’un employé humain.
Des permissions qui changent selon la tâche
Le plan de Google DeepMind prévoit de limiter précisément les outils et les données accessibles à chaque agent IA.
John “Four” Flynn, vice-président chargé de la sécurité et de la confidentialité, estime que les contrôles actuels fondés sur les rôles humains ne conviennent pas à l’IA. Un même agent peut exécuter plusieurs tâches associées à des rôles différents.
L’entreprise veut donc des permissions plus dynamiques. Un agent pourrait accéder à certaines données pour une mission précise, puis perdre cet accès quelques minutes plus tard en changeant de contexte.
Le tout serait surveillé par un système capable de repérer les comportements anormaux et de couper l’accès en cas de risque.
Un prototype surveille déjà les agents de codage
Google DeepMind utilise déjà un prototype interne chargé de surveiller, de manière asynchrone, le comportement d’agents de codage.
Lorsqu’un élément suspect apparaît, il est transmis à des humains pour examen.
Cet outil a analysé près d’un million de tâches. Il a aussi joué un rôle clé dans la surveillance en temps réel de Gemini Spark, permettant d’intervenir rapidement lors d’incidents comme la suppression involontaire de données.
Selon Google DeepMind, la plupart des événements détectés ne relèvent pas d’une intention malveillante. Ils proviennent plutôt d’erreurs d’interprétation ou d’un excès de zèle dans l’exécution des demandes de l’utilisateur.
Quinze protections pour limiter les dérives
Le dispositif comprend environ quinze mesures destinées à réduire le risque d’agents IA hors de contrôle.
Certaines sont simples, comme les journaux d’activité réseau, qui peuvent être audités en temps réel ou après coup.
D’autres sont plus avancées. Google DeepMind évoque la surveillance des traces de raisonnement produites par les agents, à l’aide de modèles moins complexes capables d’examiner le raisonnement textuel généré avant une action.
Les chercheurs préviennent que ces traces ne reflètent pas toujours ce que le modèle « pense » réellement. Ils proposent donc aussi d’observer les schémas d’activation internes des réseaux neuronaux, une méthode comparée à une IRM fonctionnelle pour repérer des signes de dérive ou de tromperie.
Le cadre TRAIT&R cible trois grandes menaces
Google DeepMind introduit dans son rapport technique le cadre TRAIT&R, pour Taxonomy of Rogue AI Tactics and Routines.
Inspiré de la base ATT&CK de l’organisation américaine MITRE, ce cadre classe les comportements dangereux des agents IA.
Il distingue trois types de menaces : la perte de contrôle, comme la création de déploiements internes non supervisés ; le sabotage du travail, par exemple la dégradation discrète de recherches sur la sécurité ; et le dommage direct, qui peut inclure le vol d’informations sensibles ou la destruction d’actifs critiques.
John “Four” Flynn affirme que plusieurs de ces mesures sont déjà en place chez Google DeepMind. Rohin Shah ajoute que le cadre vise aussi à détecter des dommages plus subtils, comme la persuasion cachée destinée à pousser les utilisateurs à commettre des erreurs.

Samuel Le Goff suit l’actualité des smartphones, des systèmes d’exploitation mobiles et de l’intelligence artificielle depuis plus de 14 ans. Il couvre notamment Samsung, Xiaomi, Apple, Android, iOS et les grandes tendances du numérique.
