MLCommons, un groupe à but non lucratif qui publie des résultats de performances de référence pour les systèmes d'IA, a publié de nouvelles données sur les puces de Nvidia et Advanced Micro Devices, entre autres, destinées à l'entraînement, dans lequel les systèmes d'IA sont alimentés par de grandes quantités de données afin d'apprendre. Alors que l'attention du marché boursier s'est largement tournée vers le marché plus vaste de l'inférence IA, dans lequel les systèmes d'IA traitent les questions des utilisateurs, le nombre de puces nécessaires pour entraîner les systèmes reste un enjeu concurrentiel majeur. La société chinoise DeepSeek affirme avoir créé un chatbot compétitif utilisant beaucoup moins de puces que ses concurrents américains.
Ces résultats sont les premiers publiés par MLCommons sur les performances des puces dans la formation de systèmes d'IA tels que Llama 3.1 405B, un modèle d'IA open source publié par Meta Platforms qui dispose d'un nombre suffisamment important de « paramètres » pour donner une indication des performances des puces dans certaines des tâches de formation les plus complexes au monde, qui peuvent impliquer des milliers de milliards de paramètres. Nvidia et ses partenaires ont été les seuls participants à soumettre des données sur la formation de ce modèle de grande envergure, et ces données ont montré que les nouvelles puces Blackwell de Nvidia sont, par puce, plus de deux fois plus rapides que la génération précédente de puces Hopper.
Dans les résultats les plus rapides obtenus pour les nouvelles puces de Nvidia, 2 496 puces Blackwell ont terminé le test de formation en 27 minutes. Selon les données, il a fallu plus de trois fois plus de puces de la génération précédente de Nvidia pour obtenir un temps plus rapide.
Lors d'une conférence de presse, Chetan Kapoor, directeur produit chez CoreWeave, qui a collaboré avec Nvidia pour obtenir certains de ces résultats, a déclaré que l'industrie de l'IA avait tendance à regrouper de petits ensembles de puces dans des sous-systèmes destinés à des tâches d'entraînement distinctes, plutôt que de créer des groupes homogènes de 100 000 puces ou plus.
« En utilisant une telle méthodologie, ils sont en mesure de continuer à accélérer ou à réduire le temps nécessaire à la formation de certains de ces modèles fous, composés de plusieurs milliers de milliards de paramètres », a déclaré M. Kapoor. (Reportage de Stephen Nellis à San Francisco ; édité par Leslie Adler)