Xiaomi défie les géants de l’IA avec un modèle audio ultra-performant

Xiaomi franchit une nouvelle étape en intelligence artificielle avec son modèle avancé d’argumentation audio, atteignant une précision de 64,5 %, un score qui dépasse OpenAI et Google dans ce domaine. L’entreprise mise sur une approche open source, offrant aux développeurs du monde entier la possibilité d’améliorer cette technologie, applicable à divers appareils comme les smartphones et les solutions IoT.

HiperAI : une avancée majeure en IA

Xiaomi marque un tournant avec son modèle innovant d’argumentation audio, positionné à la pointe de la technologie. Ce succès illustre la progression rapide de la marque dans la recherche avancée en IA. Son dernier modèle a surpassé ceux de géants du secteur, comme OpenAI et Google, dans l’interprétation et l’analyse des signaux sonores.

Le modèle a été évalué selon le classement MMAU (Massive Multi-task Audio Understanding), une référence en compréhension et argumentation audio. Il a obtenu un score record de 64,5 %, surpassant de manière significative GPT-4o d’OpenAI (57,3 %) et Gemini 2.0 Flash de Google (55,6 %).

Un apprentissage par renforcement optimisé

L’évolution rapide de ce modèle est particulièrement impressionnante. Après le succès du Deepseek-R1, les chercheurs de Xiaomi ont amélioré les algorithmes d’apprentissage par renforcement en seulement une semaine. Les scientifiques ont mis en œuvre la méthode GRPO (Optimisation Relative de Politiques), permettant à l’IA d’apprendre de manière autonome grâce à un mécanisme de “récompense par essai-erreur”. Ce procédé renforce ses capacités d’argumentation en imitant une réflexion humaine et une vérification en plusieurs étapes.

Le Dr Zhang Wei, chercheur principal du projet, explique : “L’apprentissage par renforcement est particulièrement efficace pour combler l’écart entre la génération et la vérification des résultats. L’argumentation audio est précisément l’un de ces domaines où une réflexion active permet d’obtenir des résultats plus précis que les modèles traditionnels.”

Une IA qui va au-delà de la simple reconnaissance sonore

Les nouvelles applications de l’IA ne se limitent plus à la simple détection des sons. Grâce aux avancées de Xiaomi, elle peut désormais :

Identifier des anomalies mécaniques en analysant les enregistrements sonores d’un véhicule.
Détecter l’état émotionnel d’un compositeur en écoutant ses performances musicales.
Anticiper les risques de collision dans des environnements bondés comme les stations de métro.

A lire : Xiaomi 17 Pro Max : Geekbench confirme une puissance record avec le Snapdragon 8 Elite Gen 5

Le test MMAU repose sur 10 000 extraits audio, couvrant aussi bien la parole que les sons environnementaux et la musique. Les performances du modèle sont évaluées sur 27 compétences spécifiques, à l’aide de questions annotées par des experts humains.

Une remise en question des approches classiques de l’IA

Les expériences menées par Xiaomi ont produit des résultats inattendus, remettant en cause certaines idées reçues dans le domaine de l’IA :

L’apprentissage par renforcement s’est révélé plus efficace que les méthodes traditionnelles, avec un jeu de données limité à seulement 38 000 éléments.
Son modèle de 7 milliards de paramètres a surpassé des systèmes concurrents dépassant les 100 milliards de paramètres, prouvant qu’un modèle plus léger peut être plus performant en argumentation.
L’ajout explicite de processus d’argumentation a paradoxalement réduit les performances de 3,4 %.

Bien que son taux de précision de 64,5 % soit impressionnant, il reste inférieur à la référence humaine de 82,23 %, laissant une large marge de progression pour l’avenir.

Une technologie ouverte à tous

Fidèle à sa philosophie d’innovation ouverte, Xiaomi mettra à disposition les paramètres de son modèle. Cette approche vise à permettre aux développeurs et chercheurs du monde entier d’exploiter et d’améliorer cette technologie.

“En partageant nos travaux avec la communauté IA, nous voulons accélérer l’émergence d’une véritable compréhension intelligente de l’audio”, a déclaré Lei Jun, fondateur et PDG de Xiaomi. “C’est une nouvelle étape dans notre mission de rendre les technologies de pointe accessibles à tous.”

Pour ceux qui souhaitent tester cette avancée :

Code d’entraînement : disponible sur GitHub
Paramètres du modèle : accessibles sur Hugging Face
Rapport technique : consultable sur ArXiv
Démo interactive : essayez-la directement

A lire : Suivi de bagages avec iOS 18.2 : Apple s’associe aux compagnies aériennes

Avec l’intégration future de ces capacités d’intelligence artificielle dans ses smartphones et solutions IoT, Xiaomi se positionne comme un acteur majeur dans la recherche en IA à l’échelle mondiale.

Samuel

Samuel Le Goff suit l’actualité des smartphones, des systèmes d’exploitation mobiles et de l’intelligence artificielle depuis plus de 14 ans. Il couvre notamment Samsung, Xiaomi, Apple, Android, iOS et les grandes tendances du numérique.

HiperAI : une avancée majeure en IA

Un apprentissage par renforcement optimisé

Une IA qui va au-delà de la simple reconnaissance sonore

Une remise en question des approches classiques de l’IA

Une technologie ouverte à tous

Samuel

Articles similaires

iOS 27 : Siri devient-il enfin l’IA qu’Apple promettait ?

Google Search : le mode IA peut désormais surveiller le web à votre place

L’UE répond : ce qu’Apple a réellement proposé pour lancer Siri AI en Europe

Siri AI retardé en Europe : Apple accuse les règles de l’UE, Bruxelles réplique

Apple Intelligence gratuit ? La réponse est moins simple que prévu

iOS 27, Siri, Mac Intel : la WWDC 2026 s’annonce radicale

Laisser un commentaire Annuler la réponse