LightOn a annoncé la sortie de GTE-ModernColBERT, un modèle de recherche multi-vecteur open source. En tirant parti de l'architecture ModernBERT et de la bibliothèque innovante Py late, la société a créé une solution qui marque une nouvelle étape dans ce domaine et répond aux défis complexes de la recherche d'informations dans les entreprises modernes. Ce nouveau modèle surpasse les modèles de l'écosystème (Alibaba, Snowflake, Cohere, BAAI, JinaAI) dans le benchmark LongEmbed, référence dans le secteur.

Les modèles d'intégration à vecteur unique traditionnels sont devenus la norme dans l'industrie, mais à mesure que les besoins des entreprises évoluent vers la gestion de contextes plus longs et de domaines spécialisés, leurs limites deviennent de plus en plus évidentes. GTE-ModernColberT-base représente un bond en avant significatif grâce à son architecture multi-vecteur (interaction tardive), qui propose : Une capacité de généralisation exceptionnelle pour les documents longs : GTE-ModernColBERT établit une nouvelle référence (SOTA - State of the Art) en matière de généralisation avec des contextes longs. Il surpasse les meilleurs modèles existants de 10 points (benchmark LongEmbed) sur des documents contenant jusqu'à 32 000 tokens, soit l'équivalent de dizaines de pages de texte, alors qu'il n'a été initialement entraîné que sur 300 extraits de tokens issus du dataset MS MARCO.

Ces premiers résultats indiquent que GTE-ModernColBER T pourrait encore étendre ses capacités et offrir d'excellentes performances, même au-delà de cette fenêtre contextuelle déjà impressionnante. Gestion étendue du contexte pour des documents contenant jusqu'à 32 000 tokens, généralisation supérieure pour les contenus spécifiques à un domaine, confidentiels ou spécialisés. Performances révolutionnaires en tant que premier modèle à dépasser ColBERT-small sur le benchmark BEIR.

Efficacité remarquable grâce aux avancées architecturales de ModernBERT. LightOn a créé GTE-ModernColBERt comme une solution unique en identifiant et en s'appuyant sur des éléments clés : Encodeur moderne : LightOn a conçu ModernBERT pour permettre la création de modèles de recherche puissants et à jour. Seules 80 lignes de code sont nécessaires pour reproduire le processus d'entraînement.

Distillation des connaissances : en s'entraînant sur MS MARCO via la distillation des connaissances, l'entreprise a créé un modèle léger mais puissant qui ne fait aucun compromis sur les performances. Compatibilité : la plupart des principales bases de données vectorielles, notamment QDrant, LanceDB, Weaviate et Vespa, prennent désormais en charge l'indexation multi-vecteurs, ce qui facilite l'adoption par les entreprises. Transformation des implémentations RAG en entreprise : GTE-Modern ColBERT transforme fondamentalement la manière dont les organisations peuvent implémenter la génération augmentée par la recherche (RAG) en améliorant la qualité de la recherche dans les bases de connaissances propriétaires, en maintenant des performances élevées même avec des contenus hautement spécialisés, en prenant en charge le traitement de documents à l'échelle de l'entreprise et en permettant une recherche plus précise pour les réponses générées par l'IA.

Impact concret : pour les équipes de gestion des connaissances et les développeurs de solutions d'IA, GTE-ModernColBERB offre une base idéale pour les systèmes d'information de nouvelle génération. Sa capacité à traiter de grands volumes de texte tout en conservant la compréhension contextuelle le rend particulièrement utile pour : l'analyse de documents juridiques ; les référentiels de recherche scientifique ; la recherche de documentation technique ; les bases de connaissances du service client ; la gestion des connaissances internes à l'entreprise. Engagement en faveur de l'open source : Après la sortie de ModernBERT et ModernBERT-embed, LightOn poursuit son engagement à faire progresser le domaine de l'IA en publiant GTE-ModernColBERT sous licence open source Apache 2.0. L'entreprise permet ainsi aux organisations de toutes tailles de bénéficier d'une technologie de recherche de pointe et de renforcer leurs capacités de recherche grâce à l'open source. Pour les organisations qui souhaitent rester à la pointe de la gestion des connaissances et du RAG, GTE-ModernColber T est désormais disponible.