OpenAI a levé le voile sur GPT-4o, une version améliorée de son modèle de langage de grande envergure destiné aux entreprises. Cette nouvelle mouture a été conçue pour offrir des réponses rapides en temps réel, intégrant de manière fluide les modalités audio, vidéo et texte. Lors d’une démonstration en direct sur YouTube, cette dernière itération de la ligne de LLMs de GPT a démontré une capacité à dialoguer de manière naturelle et rapide avec plusieurs employés d’OpenAI.
Comment GPT-4o a transformé l’interaction utilisateur
Dans le cadre de cette présentation, GPT-4o a écouté et assisté un utilisateur à résoudre des équations mathématiques tout en interprétant visuellement ses émotions à partir de ses expressions faciales. Ce modèle, surnommé “o” pour “omni”, a également chanté un conte de fées inventé avec une voix robotique et traduit verbalement une conversation entre un italien et un anglophone. OpenAI a aussi présenté une interface utilisateur rafraîchie pour la version desktop, affirmant étendre certaines des capacités interactives et accélérées de GPT-4o à la version grand public du modèle, ChatGPT Free.
Pourquoi la rapidité de GPT-4o est-elle significative ?
Mira Murati, CTO d’OpenAI, a souligné lors de cette présentation que « GPT-4o offre une intelligence de niveau GPT-4 mais avec une vitesse nettement accrue ». Elle a ajouté : « Cela représente un énorme pas en avant en termes de facilité d’utilisation, ce qui est extrêmement important puisque nous envisageons l’avenir des interactions entre nous et les machines ».
Les répercussions de la mise à jour Google Gemini
La sortie de GPT-4o coïncide avec une annonce produit tout aussi importante de la part de Google, un concurrent majeur d’OpenAI et de son partenaire, Microsoft, dans le domaine de l’IA générative. La conférence des développeurs Google I/O, prévue pour s’ouvrir le 14 mai, est attendue avec impatience. Les observateurs anticipent que le géant de la tech continuera de renforcer l’aspect compétitif de la course à l’IA générative, un domaine où des acteurs tels que Google, Microsoft, Meta, Amazon ainsi que des fournisseurs plus petits comme Anthropic, Cohere et Mistral tentent constamment de se surpasser depuis deux ans.
Comment les analystes perçoivent-ils les avancées d’OpenAI par rapport à Google ?
Chirag Dekate, analyste chez Gartner, a noté que bien que les réalisations d’OpenAI avec GPT-4o soient techniquement impressionnantes, elles correspondent en réalité à ce que Google avait déjà montré avec son propre LLM phare, Gemini, en décembre dernier. « Toute progression dans l’innovation en IA générative est toujours inspirante, car elle met en lumière le travail acharné des chercheurs aux frontières du développement et de l’ingénierie des modèles. Mais en même temps, pour être franc, j’ai été quelque peu déçu », a-t-il déclaré.
Quels sont les enjeux pour OpenAI face à Google ?
Les deux modèles, Gemini et GPT-4o, sont des modèles multimodaux, capables de générer du contenu à travers des modalités de texte, audio, vidéo et image. Toutefois, Google a subi un coup dur à son image publique en février, lorsque le générateur d’images de Gemini a produit des images erronées représentant des soldats noirs en uniformes nazis, ce qui a conduit à l’arrêt immédiat de cette fonctionnalité. Depuis, le monde technologique attend de voir quand Google réactivera cette fonctionnalité, et avec quelles mesures de sécurité pour éviter une répétition de ce désastre.
Les implications pour l’avenir de la technologie générative
Pour certains, la performance de la technologie IA générative d’OpenAI a mis en évidence les capacités impressionnantes de cette technologie en évolution rapide et son potentiel pour permettre une interaction naturelle avec les humains. William McKeon-White, analyste chez Forrester, a souligné que le plus impressionnant lors de la présentation d’OpenAI était leur capacité à effectuer cette démonstration en direct, permettant aux modèles de se passer le relais et de réagir presque en temps réel. “C’était quand même assez cool de voir tout cela fonctionner en tandem, contrairement à l’annonce initiale de Google, qui était aussi assez impressionnante. Mais cela indique que vous pouvez utiliser ces modèles vous-même”, a-t-il ajouté.

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.
