Un grand modèle de langage a surpassé des médecins sur de nombreuses tâches de raisonnement clinique, y compris aux urgences, selon une étude menée par Harvard Medical School et le Beth Israel Deaconess Medical Center. Les chercheurs estiment que ces performances justifient désormais des essais cliniques prospectifs, contrôlés et menés dans de vrais environnements de soins. Leur message reste prudent : l’IA ne doit pas remplacer les médecins, mais être testée comme aide à la décision.
L’IA dépasse les médecins sur plusieurs tâches cliniques
Les chercheurs ont mené l’une des plus grandes comparaisons à ce jour entre intelligence artificielle et médecins sur des tâches de raisonnement médical.
Le système évalué, un grand modèle de langage, a surpassé les praticiens dans plusieurs exercices : prise de décision aux urgences, identification des diagnostics probables et choix des étapes suivantes de prise en charge.
Arjun Raj Manrai, professeur assistant en informatique biomédicale à Harvard Medical School et coauteur senior de l’étude, explique que le modèle a été testé face à presque tous les repères disponibles. Selon lui, il a dépassé à la fois les modèles précédents et les bases de comparaison constituées par les médecins.
Des dossiers d’urgences bruts, sans nettoyage préalable
L’un des points forts de l’étude vient de la manière dont l’IA a été testée. Les chercheurs ne lui ont pas fourni des dossiers simplifiés ni des cas médicaux réécrits pour faciliter l’analyse.
Dans une expérience, le modèle devait évaluer des patients à plusieurs moments d’un passage classique aux urgences, depuis le tri initial jusqu’aux décisions d’admission. À chaque étape, il recevait uniquement les informations disponibles à ce moment précis dans le dossier médical électronique.
Ces données provenaient de vrais dossiers hospitaliers. Elles ont été présentées telles quelles, sans traitement préalable destiné à les rendre plus propres ou plus faciles à interpréter.
Adam Rodman, professeur assistant de médecine à Harvard Medical School et coauteur senior de l’étude, précise que l’équipe n’a pas prétraité les données. L’objectif était de mesurer la performance du modèle face au désordre réel des soins.
Un résultat qui a surpris les chercheurs eux-mêmes
Aux premiers moments de décision dans les cas d’urgences, le modèle a égalé ou dépassé les médecins seniors en précision diagnostique.
Ce résultat a surpris l’équipe. Adam Rodman indique qu’il s’attendait à une expérience intéressante, mais pas à une performance aussi élevée.
L’étude ne se limite pas aux urgences. Les chercheurs ont aussi comparé l’IA à des centaines de cliniciens à travers plusieurs formats : défis diagnostiques, exercices de raisonnement médical et cas réels issus des services d’urgences.
La publication officielle est disponible ici : https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing
Les anciens tests médicaux arrivent à leurs limites
Les chercheurs estiment que les méthodes classiques d’évaluation de l’IA médicale ne suffisent plus toujours à mesurer les capacités des modèles actuels.
Peter Brodeur, coauteur principal et clinical fellow à Beth Israel Deaconess, explique que les modèles atteignent désormais presque 100 % sur certains tests à choix multiples. Quand un système arrive au plafond d’un test, il devient difficile de suivre ses progrès réels.
C’est l’un des messages forts de l’étude : il ne suffit plus de mesurer l’IA médicale avec des examens standardisés. Il faut désormais l’observer dans des situations proches du soin réel, avec des données imparfaites, incomplètes et changeantes.
Les médecins restent indispensables dans la boucle
Les auteurs insistent sur un point : ces résultats ne signifient pas qu’un système d’IA peut exercer la médecine seul.
Un modèle peut trouver le bon diagnostic principal tout en recommandant des examens inutiles, avec un risque potentiel pour le patient. Pour Peter Brodeur, l’humain doit rester la référence ultime lorsqu’il s’agit d’évaluer la performance et la sécurité.
L’IA apparaît donc comme un soutien possible au médecin, pas comme un remplaçant. Elle pourrait aider à lire des dossiers complexes, hiérarchiser des hypothèses ou proposer des étapes de prise en charge, sous supervision humaine.
Les vrais essais cliniques deviennent l’étape clé
Pour l’équipe de Harvard et du Beth Israel Deaconess Medical Center, les performances observées justifient désormais des essais cliniques prospectifs en conditions réelles.
Ces essais devront déterminer si ces outils améliorent vraiment les soins, dans quels contextes ils sont utiles et comment les intégrer sans fragiliser la sécurité des patients.
La question n’est donc plus seulement de savoir si l’IA peut répondre juste à un test médical. Elle est de savoir si elle peut aider les soignants, au bon moment, sans ajouter de risques dans une pratique clinique déjà complexe.

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.
