Claude Fable 5 aurait été piégé grâce à des langues qu’il maîtrise moins bien

Fable 5 aurait été contourné au terme d’une opération de près de 20 heures, malgré trois couches de sécurité chargées de surveiller les requêtes, les réponses et le raisonnement interne du modèle. L’attaque aurait également exposé une partie de sa chaîne de pensée, présentée sous une forme condensée mêlant symboles mathématiques, abréviations et fragments de mots. L’incident relance les inquiétudes sur la sécurité des modèles d’IA et sur la difficulté à comprendre leurs mécanismes internes.

Trois niveaux de protection contournés après 20 heures d’efforts

Le jailbreak de Fable 5, un modèle d’intelligence artificielle développé par Enthropic, aurait nécessité près de 20 heures de travail ainsi que l’utilisation de plusieurs langues.

Fable 5 disposerait pourtant de trois couches de classificateurs. Celles-ci surveilleraient les demandes envoyées au modèle, les réponses générées et certaines étapes de son raisonnement interne.

Ces protections ne reposeraient pas uniquement sur la détection de mots sensibles. Elles chercheraient également à comprendre le sens des requêtes et l’intention de l’utilisateur afin de bloquer les usages dangereux.

Les attaquants auraient exploité les limites linguistiques du modèle dans des langues moins courantes, notamment l’Amoric et le Sentelli. Cette méthode leur aurait permis de contourner les garde-fous et d’obtenir des contenus potentiellement dangereux liés à la désinformation, à la chimie ou à la cybersécurité.

Ces affirmations restent non vérifiées. Elles montrent malgré tout que des protections sophistiquées peuvent être fragilisées lorsque le modèle comprend moins bien certaines langues ou des formulations inhabituelles.

Fable 5 aurait dévoilé une partie de sa chaîne de pensée

L’attaque aurait aussi rendu visible une partie du raisonnement interne de Fable 5, souvent appelé « chaîne de pensée ».

Des exemples publiés sur Reddit présenteraient une notation particulièrement compacte, composée de symboles mathématiques, d’abréviations et de fragments d’expressions comme « gr » ou « few ».

Cette forme d’écriture pourrait permettre au modèle de traiter plus rapidement des tâches complexes sans formuler chaque étape dans des phrases complètes. Pour un lecteur humain, elle reste très difficile à comprendre sans contexte supplémentaire.

A lire : ChatGPT, Claude et Gemini face à l’actualité de guerre : une étude met en lumière les limites de l’intelligence artificielle

La différence avec les réponses classiques est nette. Le texte affiché à l’utilisateur est structuré et fluide, tandis que le raisonnement intermédiaire ressemblerait davantage à un brouillon compressé qu’à une démonstration rédigée en langage naturel.

Une logique interne difficile à interpréter

Cette écriture abrégée pose un problème de transparence. Lorsqu’un modèle produit une réponse sensible ou prend une décision complexe, il devient difficile de vérifier son raisonnement si ses étapes internes restent incompréhensibles.

Cette opacité complique également la détection des erreurs. Les développeurs doivent pouvoir déterminer pourquoi un modèle génère une réponse incorrecte, contourne une règle ou interprète mal une instruction.

Même lorsqu’une trace du raisonnement est disponible, sa présence ne garantit pas qu’elle puisse être comprise ou utilisée pour expliquer clairement le comportement du système.

La fuite attribuée à Fable 5 offrirait donc un aperçu rare du fonctionnement interne d’un modèle avancé. Elle montre aussi qu’un accès au raisonnement ne suffit pas à rendre une intelligence artificielle réellement explicable.

Les langues peu représentées fragilisent les garde-fous

Le recours à plusieurs langues met en évidence une faiblesse persistante des systèmes de sécurité : leur efficacité dépend directement des capacités linguistiques du modèle.

Une intelligence artificielle peut reconnaître une demande interdite en anglais ou en français, puis échouer face à une formulation équivalente dans une langue moins présente dans ses données d’entraînement. Les mélanges de langues, les traductions successives et les formulations volontairement ambiguës peuvent également compliquer l’analyse.

Les classificateurs doivent donc comprendre l’intention d’une requête dans de nombreux contextes, et pas seulement détecter certains mots ou expressions.

L’incident montre que la sécurité d’un modèle ne peut pas reposer sur des protections fixes. Les garde-fous doivent évoluer à mesure que les méthodes de contournement deviennent plus complexes.

Gemini 3.5 Pro privilégierait les usages destinés au grand public

Alors qu’Enthropic ferait face aux conséquences de ce jailbreak, Google préparerait Gemini 3.5 Pro, un modèle davantage orienté vers les applications destinées aux entreprises et au grand public.

A lire : Microsoft Scout : que vaut le nouvel assistant professionnel autonome basé sur OpenClaw ?

Les premiers rapports évoqueraient de bonnes performances dans la génération de fichiers SVG, la création d’interfaces et le développement front-end. Le modèle pourrait ainsi produire des éléments graphiques, structurer des pages web et accélérer certains flux de travail.

Cette orientation donnerait la priorité à la productivité, à la création visuelle et à la facilité d’utilisation. Gemini 3.5 Pro ne miserait pas autant sur les progrès en matière de raisonnement ou d’optimisation logique.

Cette différence reflète deux stratégies dans le secteur de l’IA. Certains modèles cherchent à renforcer leurs capacités générales de résolution de problèmes, tandis que d’autres se concentrent sur des tâches concrètes demandées par les développeurs, les entreprises et les créateurs.

Des modèles plus spécialisés, mais pas forcément plus transparents

Un modèle performant dans la création d’interfaces ne sera pas nécessairement le plus efficace pour résoudre des problèmes logiques complexes. À l’inverse, un système doté de capacités de raisonnement avancées peut rester difficile à sécuriser, à auditer ou à expliquer.

Gemini 3.5 Pro illustrerait une volonté de répondre rapidement à des besoins commerciaux précis. Cette stratégie peut améliorer l’efficacité des utilisateurs, mais elle risque de reléguer au second plan les travaux sur l’interprétabilité et la solidité du raisonnement.

Fable 5 met en évidence un autre compromis. Plus un modèle devient puissant, plus ses mécanismes internes et ses dispositifs de sécurité gagnent en complexité. Cette sophistication ne supprime pas les vulnérabilités et peut même rendre leur analyse plus délicate.

Les deux modèles illustrent la même difficulté : proposer des outils plus performants et plus utiles tout en conservant des protections suffisamment solides, compréhensibles et capables de s’adapter à de nouvelles attaques.

Eric Thomas

Eric Thomas suit l’actualité de Windows, des logiciels, de la cybersécurité grand public et des outils web. Il s’intéresse aux mises à jour système, aux nouveautés informatiques et aux solutions pratiques qui améliorent l’expérience numérique au quotidien.

Trois niveaux de protection contournés après 20 heures d’efforts

Fable 5 aurait dévoilé une partie de sa chaîne de pensée

Une logique interne difficile à interpréter

Les langues peu représentées fragilisent les garde-fous

Gemini 3.5 Pro privilégierait les usages destinés au grand public

Des modèles plus spécialisés, mais pas forcément plus transparents

Eric Thomas

Articles similaires

Claude pourrait bientôt fonctionner sur une puce créée sur mesure par Anthropic

L’IA fait flamber la mémoire, les PC et smartphones risquent d’en payer le prix

Claude Fable 5 devient payant après le 7 juillet, même pour certains abonnés

Claude Fable 5 est de retour, voici qui peut à nouveau l’utiliser

Vous cherchez une alternative à ChatGPT ? Lumo vient de combler ses plus gros retards

Google lance Nano Banana 2 Lite, son modèle d’image Gemini le plus rapide et le moins cher

Laisser un commentaire Annuler la réponse