Actualité GeekIT, Data & IATechnologies

GPT-5.3-Codex-Spark : le modèle qui génère du code à la vitesse éclair de 1 000 tokens par seconde

Plus de 1 000 tokens produits chaque seconde : OpenAI dévoile une version ultra-rapide de son modèle dédié au développement. Baptisé GPT-5.3-Codex-Spark, ce Research Preview privilégie la réactivité immédiate plutôt que les raisonnements prolongés. Le résultat est spectaculaire : le code s’affiche presque en temps réel, parfois plus vite qu’un développeur ne peut le lire.

Une vitesse record grâce à une architecture matérielle hors norme

Avec GPT-5.3-Codex-Spark, OpenAI change radicalement d’approche. Là où le GPT-5.3-Codex classique prend le temps d’analyser en profondeur avant de répondre, cette version « Spark » mise tout sur la rapidité d’exécution.

Cette performance repose sur un choix technologique fort : le modèle tourne sur la Wafer Scale Engine 3, conçue par Cerebras Systems. Contrairement aux clusters de GPU traditionnels, cette puce géante limite les goulots d’étranglement liés aux échanges de données. Résultat : des vitesses d’inférence impressionnantes, avec un affichage du code quasiment instantané.

Moins précis, mais beaucoup plus réactif

Cette accélération a un revers. Sur le benchmark Terminal-Bench 2.0, le GPT-5.3-Codex standard atteint un score de 77,3 % de précision. La version Spark tombe à 58,4 %.

OpenAI assume ce compromis. GPT-5.3-Codex-Spark n’a pas vocation à résoudre des problèmes complexes sur plusieurs minutes. Il est conçu pour des tâches interactives et rapides :
– petites corrections de code
– ajustements logiques
– amélioration d’éléments d’interface

Le modèle adopte une approche prudente. Il applique des modifications limitées et n’exécute pas automatiquement les tests. L’idée est simple : éviter toute interruption et maintenir un flux de travail fluide.

Une fenêtre de contexte large et une refonte logicielle majeure

GPT-5.3-Codex-Spark dispose d’une fenêtre de contexte de 128 000 tokens, ce qui permet de traiter des fichiers volumineux. Pour l’instant, seul le texte brut est pris en charge.

A lire :  DeepSeek R2 retardé : Huawei fait trébucher l’ambition chinoise en intelligence artificielle

OpenAI a également revu l’architecture logicielle. Les appels API classiques ont été remplacés par des connexions WebSocket persistantes. Cette évolution réduit de 80 % la surcharge de communication entre le client et le serveur. Le temps nécessaire à l’apparition du premier caractère à l’écran a ainsi été divisé par deux.

Les abonnés ChatGPT Pro peuvent déjà tester ce modèle via l’application Codex, l’interface en ligne de commande (CLI) ou l’extension VS Code. Son utilisation ne consomme pas le quota habituel, même si des limites spécifiques de requêtes s’appliquent.

À terme, OpenAI souhaite associer cette vitesse extrême à la profondeur d’analyse des modèles plus avancés. Si cette fusion aboutit, le développement assisté par intelligence artificielle pourrait gagner en fluidité comme jamais auparavant.

Source

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.

Samuel

Je m’appelle Samuel Le Goff. À 38 ans, je suis l’actualité du numérique depuis plus de 14 ans. Aujourd’hui, je m’intéresse particulièrement aux smartphones et aux usages concrets de l’intelligence artificielle, que je traite à travers des contenus clairs et accessibles sur Menow.fr.

Voir tous les articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *