Google DeepMind a dévoilé Gemma 4 12B, un modèle d’IA de 12 milliards de paramètres conçu pour fonctionner directement sur un ordinateur portable standard. Il peut analyser du texte, des images et du son sans passer par le cloud. Pour les développeurs, l’enjeu est clair : créer des outils d’IA plus rapides, utilisables hors ligne et moins dépendants des serveurs distants.
Une IA locale pour les ordinateurs portables
Gemma 4 12B vise l’exécution sur appareil, avec une utilisation mémoire réduite.
Google indique que le modèle peut gérer des tâches d’IA complexes sur du matériel courant, sans connexion Internet. C’est un point important pour les assistants locaux, l’automatisation ou l’analyse de contenus sensibles.
Autre nouveauté : il s’agit du premier modèle Gemma de taille moyenne avec des entrées audio natives.
Texte, image et son dans un seul modèle
Le modèle traite le texte, les images et l’audio dans une architecture multimodale unifiée.
Contrairement à de nombreux systèmes qui utilisent des encodeurs séparés pour chaque type de contenu, Google dit avoir entraîné Gemma 4 12B avec une architecture sans encodeur dédié pour l’image et le son.
Résultat attendu : moins de complexité et une meilleure efficacité sur les machines limitées en ressources.
Un traitement visuel allégé
Pour les images, Google remplace l’ancien encodeur visuel par un module plus léger.
Ce module combine une multiplication matricielle, un encodage positionnel et une normalisation. Le cœur du modèle de langage prend ensuite le relais pour interpréter les informations visuelles.
L’audio intégré plus directement
Côté audio, Google va plus loin : l’encodeur audio disparaît.
Le signal sonore brut est projeté dans le même espace que les jetons de texte. Cette approche doit faciliter les usages mêlant voix, texte et image, comme les assistants locaux ou les interfaces vocales.
Gemma dépasse les 150 millions de téléchargements
La famille Gemma a franchi les 150 millions de téléchargements, selon Google.
Ces modèles sont déjà utilisés dans des projets très variés, allant de bras robotiques portables à des solutions de sécurité IA pour les entreprises. Gemma 4 12B ajoute une promesse forte : faire tourner une IA multimodale avancée directement sur un PC portable.

Passionné de téléphones mobiles, de maison intelligente et d’intelligence artificielle. Pendant mon temps libre, j’aime nager, faire du vélo et programmer de nouvelles applications.
