Hancom a lancé OpenDataLoader PDF v2.0, et les résultats des tests de performance confirment ses ambitions. Selon les tests internes de l’entreprise, OpenDataLoader PDF surpasse les outils open source concurrents en matière de reconnaissance de l’ordre de lecture, d’extraction de tableaux et d’inférence des titres.

Hancom a publié l’ensemble des données de référence et le code reproductible sur son dépôt GitHub officiel, permettant aux développeurs de vérifier les résultats de manière indépendante. L’innovation technique majeure réside dans un moteur d’extraction hybride qui associe l’analyse par IA à l’extraction directe. L’avantage pratique : les entreprises et les développeurs bénéficient d’une extraction de données PDF de haute précision qui s’exécute entièrement sur site, sans qu’aucune donnée ne quitte l’environnement local.

Quatre modules d’IA gratuits inclus. OpenDataLoader PDF v2.0 intègre les quatre fonctions d’IA suivantes sans coût supplémentaire : l’OCR améliore la reconnaissance de texte sur les PDF numérisés et basés sur des images ; l’extraction de tableaux,

un modèle d’IA léger qui gère avec précision les cellules fusionnées et les structures de tableaux complexes ; l’extraction de formules reconnaît les notations mathématiques et scientifiques localement, sans appel au cloud ; et l’analyse de graphiques convertit les visuels en descriptions en langage naturel.

Ces quatre modules sont conçus pour être compatibles avec des modèles open source tiers, notamment Docling. Hancom précise qu’aucun partenariat ou parrainage formel n’est en place ; la compatibilité est purement technique, conçue pour que les développeurs puissent intégrer OpenDataLoader PDF dans leurs flux de travail existants sans refondre leur infrastructure.

Le projet a également abandonné sa licence MPL 2.0 au profit d’Apache 2.0, l’une des licences open source les plus permissives. Ce changement réduit directement les obstacles à l’utilisation commerciale, facilitant la tâche des développeurs et des entreprises du monde entier pour bâtir sur OpenDataLoader PDF sans les complications liées à la compatibilité des licences.

Hancom prévoit que cela accélérera les modèles commerciaux en aval, y compris les applications WebApp et SaaS basées sur le moteur. L’intégration de LangChain a été déployée en 2025. En 2026, Hancom cible Langflow, LlamaIndex et Gemini CLI, ainsi que le support du protocole MCP (Model Context Protocol) pour les flux de travail d’IA agentique.

La feuille de route positionne OpenDataLoader PDF comme une infrastructure pour l’ère des agents d’IA autonomes, et non comme un simple outil d’analyse autonome. Plus tard en 2026, un module d’IA commercial est prévu, décrit comme un concentré de la technologie propriétaire d’IA documentaire de Hancom.

L’élément le plus prospectif de cette feuille de route concerne l’accessibilité des PDF. Avec l’entrée en vigueur de l’Acte Européen sur l’Accessibilité (EAA), le durcissement de la législation anti-discrimination en Corée du Sud et l’extension mondiale des réglementations, la conformité est devenue une réelle charge opérationnelle pour les entreprises. Hancom affirme qu’OpenDataLoader PDF sera le premier outil PDF open source à inclure le balisage d’accessibilité généré par l’IA.

Il s’agira de la première solution open source offrant une étape clé vers la conformité PDF/UA. OpenDataLoader PDF v2.0 est disponible dès maintenant. Le code source, les jeux de données de référence et la documentation sont publiés sur le dépôt GitHub officiel d’OpenDataLoader PDF.