MLCommons d'Inspur Information a publié les résultats de MLPerf Inference v2.0, la principale suite de benchmark de l'IA. Les serveurs Inspur AI ont établi des records dans les 16 tâches de la division Fermeture des centres de données, démontrant ainsi les meilleures performances dans les scénarios d'application de l'IA dans le monde réel. MLPerf㬱 ; a été créé par David Patterson, lauréat du prix Turing, et des institutions universitaires de premier plan.

Il s'agit de la principale référence en matière de performances d'IA dans le monde, organisant des tests d'inférence et d'entraînement d'IA deux fois par an pour suivre et évaluer le développement rapide de l'IA. MLPerf㬱 ; a deux divisions : Closed et Open. La division Closed permet de comparer des pommes avec des pommes entre les fournisseurs, car elle exige l'utilisation du même modèle et du même optimiseur, ce qui en fait un excellent benchmark de référence.

Le premier benchmark d'inférence AI de MLPerf׫ ; en 2022 visait à examiner la vitesse d'inférence et les capacités des systèmes informatiques de différents fabricants dans diverses tâches d'IA. La division fermée pour la catégorie des centres de données est la division la plus compétitive. Un total de 926 résultats ont été soumis, soit le double des soumissions du benchmark précédent.

Le benchmark MLPerf AI inference couvre six tâches d'IA largement utilisées : classification d'images (ResNet50), traitement du langage naturel, reconnaissance vocale, détection d'objets, segmentation d'images médicales et recommandation. Les benchmarks MLPerf exigent une précision de plus de 99% du modèle original. Pour le traitement du langage naturel, la segmentation d'images médicales et la recommandation, deux objectifs de précision de 99 % et 99,9 % sont fixés pour examiner l'impact sur les performances informatiques lors de l'amélioration de l'objectif de qualité de l'inférence IA.

Afin de correspondre plus étroitement à l'utilisation dans le monde réel, les tests d'inférence MLPerf׫ ont deux scénarios requis pour la catégorie centre de données : hors ligne et serveur. Les scénarios hors ligne signifient que toutes les données requises pour la tâche sont disponibles localement. Dans le scénario serveur, les données sont livrées en ligne en rafales lorsqu'elles sont demandées.

Le serveur Inspur AI a établi un record de performance en traitant 449 856 images par seconde dans la tâche de modèle ResNet50, ce qui équivaut à terminer la classification de 1,28 million d'images dans le jeu de données ImageNet en seulement 2,8 secondes. Dans la tâche modèle 3D-UNet, Inspur a établi un nouveau record en traitant 36,25 images médicales par seconde, ce qui équivaut à terminer la segmentation de 207 images médicales 3D dans le jeu de données KiTS19 en 6 secondes. Dans la tâche de modélisation SSD-ResNet34, Inspur a établi un nouveau record en réalisant la reconnaissance et l'identification d'objets cibles de 11 081,9 images par seconde.

Dans la tâche modèle BERT, Inspur a établi un record de performance en complétant 38 776,7 questions et réponses par seconde en moyenne. Dans la tâche modèle RNNT, Inspur a établi un record en réalisant 155 811 conversions de reconnaissance vocale par seconde en moyenne, et Inspur a établi le meilleur record en réalisant 2 645 980 prédictions de clics par seconde en moyenne dans la tâche modèle DLRM. Dans la catégorie inférence Edge, les serveurs AI d'Inspur conçus pour les scénarios Edge ont également obtenu de bons résultats.

Les NE5260M5, NF5488A5 et NF5688M6 ont remporté 11 titres sur 17 tâches dans la division Closed. Avec le développement continu des applications d'IA, un traitement d'inférence plus rapide apportera une efficacité et des capacités d'application d'IA plus élevées, accélérant la transformation vers des industries intelligentes. Par rapport à l'inférence AI MLPerf v1.1, les serveurs Inspur AI ont amélioré les tâches de classification d'images, de reconnaissance vocale et de traitement du langage naturel de 31,5%, 28,5% et 21,3% respectivement.

Ces résultats signifient que le serveur Inspur AI peut accomplir diverses tâches d'IA plus efficacement et plus rapidement dans des scénarios tels que la conduite autonome, les conférences vocales, les questions-réponses intelligentes et les soins médicaux intelligents. Les performances exceptionnelles des serveurs Inspur AI dans les benchmarks MLPerf㬱 ; sont dues aux excellentes capacités de conception de systèmes d'Inspur Information et à ses capacités d'optimisation intégrale des systèmes de calcul de l'IA. Le serveur Inspur AI NF5468M6J peut prendre en charge 12x GPU NVIDIA A100 Tensor Core avec une architecture informatique en couches et évolutive, et a établi 12 records MLPerf. Inspur Information propose également des serveurs supportant 8x 500W de GPU NVIDIA A100 en utilisant le refroidissement liquide et par air.

Parmi les modèles haut de gamme grand public adoptant 8x les GPU NVIDIA avec NVLink dans ce benchmark, les serveurs Inspur AI ont obtenu les meilleurs résultats dans 14 des 16 tâches de la catégorie centre de données. Parmi eux, le NF5488A5 prend en charge 8x GPU NVlink A100 de troisième génération et 2x CPU AMD Milan dans un espace de 4U. Le NF5688M6 est un serveur AI à l'évolutivité extrême, optimisé pour les hyperscalers.

Il prend en charge 8x les GPU NVIDIA A100 et 2x les CPU Intel Icelake, et supporte jusqu'à 13x les cartes d'extension IO PCIe Gen4. Dans la catégorie de l'inférence Edge, le NE5260M5, est doté de systèmes de signalisation et d'alimentation optimisés, et propose une compatibilité étendue avec les CPU haute performance et une large gamme de cartes accélératrices d'IA. Il est doté d'une conception qui absorbe les chocs et réduit le bruit, et a subi des tests de fiabilité rigoureux.

Avec une profondeur de châssis de 430 mm, soit près de la moitié de la profondeur des serveurs traditionnels, il peut être déployé même dans des scénarios d'informatique périphérique où l'espace est restreint. Les serveurs Inspur AI optimisent le chemin des données entre le CPU et le GPU grâce à un calibrage fin et une optimisation complète du matériel du CPU et du GPU. Au niveau du logiciel, en améliorant la planification round-robin pour plusieurs GPU en fonction de la topologie du GPU, les performances d'un seul GPU ou de plusieurs GPU peuvent être augmentées de façon presque linéaire.

Pour l'apprentissage profond, en se basant sur les caractéristiques de calcul de l'unité Tensor Core des GPU NVIDA, l'optimisation des performances du modèle est réalisée grâce à un algorithme de compression de canal développé par Inspur.