Google Gemini 3.5 Flash peut désormais contrôler un ordinateur tout seul

Par Eric Thomas

25 juin 2026

3 min de lecture

Google Gemini 3.5 Flash peut désormais contrôler une interface avec la souris et le clavier, comme un utilisateur humain. Google a terminé la phase de test de sa fonction Computer Use et l’intègre directement à l’API de son modèle. Chrome 149 ajoute aussi un nouvel outil pratique pour envoyer rapidement du contenu visuel à l’IA.

Google Gemini 3.5 Flash devient un agent logiciel autonome

Google ne limite plus Gemini 3.5 Flash aux réponses textuelles. Avec Computer Use, les développeurs peuvent créer des agents capables d’interagir seuls avec une interface.

Le modèle analyse l’écran à partir de captures, comprend ce qui s’affiche, puis agit dans un environnement desktop, mobile ou navigateur.

Il peut cliquer sur des boutons, remplir des formulaires, faire défiler une page ou automatiser des tâches de saisie.

Une simple instruction peut ainsi déclencher un workflow complet, sans que l’utilisateur ait à intervenir à chaque étape.

Un fonctionnement basé sur la vision de l’écran

Le système ne repose pas sur des scripts rigides écrits pour chaque bouton. Il utilise une approche visuelle.

Gemini observe l’interface, repère les éléments utiles et décide de l’action à effectuer.

Cette méthode doit permettre aux agents de gérer des tâches plus souples, même lorsque l’interface change légèrement.

Google se rapproche ainsi de ce qu’Anthropic avait déjà présenté avec Claude 3.5 Sonnet. L’avantage mis en avant ici tient à la vitesse du modèle Flash, utile pour analyser en continu des captures d’écran.

Chrome 149 simplifie les captures envoyées à l’IA

Chrome 149 ajoute aussi une fonction appelée Select from screen.

A lire : Gemini 3.1 Flash Live : le nouveau modèle de Google promet des conversations vocales quasi humaines

Depuis le menu des pièces jointes du navigateur, l’utilisateur peut tracer un cadre autour d’une image ou d’un texte dans l’onglet actif.

Le navigateur récupère alors directement la zone sélectionnée, sans capture manuelle ni fichier à enregistrer.

Le contenu est envoyé dans le champ de saisie pour poser une question contextuelle à l’IA.

Google ajoute des garde-fous contre les manipulations

Une IA capable de contrôler une souris et un clavier pose un vrai problème de sécurité.

Google indique avoir entraîné le modèle contre les attaques de type prompt injection, qui peuvent tenter de tromper l’agent via le contenu d’une page web.

Pour les usages professionnels, le système peut interrompre un workflow si une attaque est détectée.

Les actions sensibles exigent aussi une validation humaine avant d’être exécutées. L’utilisateur garde donc le dernier mot.

Eric Thomas

Eric Thomas suit l’actualité de Windows, des logiciels, de la cybersécurité grand public et des outils web. Il s’intéresse aux mises à jour système, aux nouveautés informatiques et aux solutions pratiques qui améliorent l’expérience numérique au quotidien.

Google Gemini 3.5 Flash devient un agent logiciel autonome

Un fonctionnement basé sur la vision de l’écran

Chrome 149 simplifie les captures envoyées à l’IA

Google ajoute des garde-fous contre les manipulations

Eric Thomas

Articles similaires

Android 17 améliore les Pixel, sauf pour certains utilisateurs

Google ne te l’a pas dit, mais Android 17 cache une grosse amélioration si tu utilises des écouteurs sans fil

Mise à jour Google Play System de juin 2026 : le manque de transparence agace les utilisateurs Samsung

Android 17 provoque des bugs tactiles inquiétants sur plusieurs Google Pixel

Android 17 : les 20 smartphones qui peuvent déjà être mis à jour

Pourquoi Google DeepMind prépare un plan si ses agents IA échappent au contrôle

Laisser un commentaire Annuler la réponse