Red Hat a annoncé le lancement de llm-d, un nouveau projet open source qui répond au besoin le plus crucial de l'avenir de l'IA générative (gen AI) : l'inférence à grande échelle. Exploitant des technologies d'inférence révolutionnaires pour l'IA générative à grande échelle, llm-d s'appuie sur une architecture Kubernetes native, une inférence distribuée basée sur vLLM et un routage réseau intelligent et sensible à l'IA, permettant ainsi de créer des clouds d'inférence de modèles linguistiques robustes et de grande envergure afin de répondre aux objectifs de niveau de service les plus exigeants en matière de production. Si la formation reste essentielle, l'impact réel de l'IA générative dépend d'une inférence plus efficace et évolutive, véritable moteur qui transforme les modèles d'IA en informations exploitables et en expériences utilisateur.

Le déchargement du cache KV (clé-valeur), basé sur LMCache, transfère la charge mémoire du cache KV de la mémoire GPU vers un stockage standard plus économique et plus abondant, comme la mémoire CPU ou le stockage réseau. Des clusters et des contrôleurs alimentés par Kubernetes permettent une planification plus efficace des ressources de calcul et de stockage en fonction des fluctuations de la charge de travail, tout en maintenant les performances et en réduisant la latence. Le routage réseau compatible avec l'IA planifie les demandes entrantes vers les serveurs et les accélérateurs les plus susceptibles de disposer de caches actifs contenant les calculs d'inférence précédents.

Des API de communication hautes performances pour un transfert de données plus rapide et plus efficace entre les serveurs, avec prise en charge de la bibliothèque NVIDIA Inference Xfer. Ce nouveau projet open source a déjà obtenu le soutien d'une formidable coalition de fournisseurs de modèles d'IA générique de premier plan, de pionniers des accélérateurs d'IA et de plateformes cloud d'IA de premier plan. CoreWeave, Google Cloud, IBM Research et NVIDIA sont les contributeurs fondateurs, avec AMD, Cisco, Hugging Face, Intel, Lambda et Mistral AI comme partenaires, soulignant la collaboration étroite de l'industrie pour concevoir l'avenir des services LLM à grande échelle. La communauté llm-d est également rejointe par les contributeurs fondateurs du Sky Computing Lab de l'université de Californie, créateurs du vLLM, et du LMCache Lab de l'université de Chicago, créateurs du LMCache.