ActualitéIT, Data & IATechnologies

Google Gemini 3.5 Flash peut désormais contrôler un ordinateur tout seul

Google Gemini 3.5 Flash peut désormais contrôler une interface avec la souris et le clavier, comme un utilisateur humain. Google a terminé la phase de test de sa fonction Computer Use et l’intègre directement à l’API de son modèle. Chrome 149 ajoute aussi un nouvel outil pratique pour envoyer rapidement du contenu visuel à l’IA.

Google Gemini 3.5 Flash devient un agent logiciel autonome

Google ne limite plus Gemini 3.5 Flash aux réponses textuelles. Avec Computer Use, les développeurs peuvent créer des agents capables d’interagir seuls avec une interface.

Le modèle analyse l’écran à partir de captures, comprend ce qui s’affiche, puis agit dans un environnement desktop, mobile ou navigateur.

Il peut cliquer sur des boutons, remplir des formulaires, faire défiler une page ou automatiser des tâches de saisie.

Une simple instruction peut ainsi déclencher un workflow complet, sans que l’utilisateur ait à intervenir à chaque étape.

Un fonctionnement basé sur la vision de l’écran

Le système ne repose pas sur des scripts rigides écrits pour chaque bouton. Il utilise une approche visuelle.

Gemini observe l’interface, repère les éléments utiles et décide de l’action à effectuer.

Cette méthode doit permettre aux agents de gérer des tâches plus souples, même lorsque l’interface change légèrement.

Google se rapproche ainsi de ce qu’Anthropic avait déjà présenté avec Claude 3.5 Sonnet. L’avantage mis en avant ici tient à la vitesse du modèle Flash, utile pour analyser en continu des captures d’écran.

Chrome 149 simplifie les captures envoyées à l’IA

Chrome 149 ajoute aussi une fonction appelée Select from screen.

A lire :  Gemini 3.1 Flash Live : le nouveau modèle de Google promet des conversations vocales quasi humaines

Depuis le menu des pièces jointes du navigateur, l’utilisateur peut tracer un cadre autour d’une image ou d’un texte dans l’onglet actif.

Le navigateur récupère alors directement la zone sélectionnée, sans capture manuelle ni fichier à enregistrer.

Le contenu est envoyé dans le champ de saisie pour poser une question contextuelle à l’IA.

Google ajoute des garde-fous contre les manipulations

Une IA capable de contrôler une souris et un clavier pose un vrai problème de sécurité.

Google indique avoir entraîné le modèle contre les attaques de type prompt injection, qui peuvent tenter de tromper l’agent via le contenu d’une page web.

Pour les usages professionnels, le système peut interrompre un workflow si une attaque est détectée.

Les actions sensibles exigent aussi une validation humaine avant d’être exécutées. L’utilisateur garde donc le dernier mot.

Eric Thomas suit l’actualité de Windows, des logiciels, de la cybersécurité grand public et des outils web. Il s’intéresse aux mises à jour système, aux nouveautés informatiques et aux solutions pratiques qui améliorent l’expérience numérique au quotidien.

Eric Thomas

Eric Thomas suit l’actualité de Windows, des logiciels, de la cybersécurité grand public et des outils web. Il s’intéresse aux mises à jour système, aux nouveautés informatiques et aux solutions pratiques qui améliorent l’expérience numérique au quotidien.

Voir tous les articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *