Hancom a lancé OpenDataLoader PDF v2.0, et les résultats des tests de performance confirment ses ambitions. Selon les tests internes de lentreprise, OpenDataLoader PDF surpasse les outils open source concurrents en matière de reconnaissance de lordre de lecture, dextraction de tableaux et dinférence des titres.
Hancom a publié lensemble des données de référence et le code reproductible sur son dépôt GitHub officiel, permettant aux développeurs de vérifier les résultats de manière indépendante. Linnovation technique majeure réside dans un moteur dextraction hybride qui associe lanalyse par IA à lextraction directe. Lavantage pratique : les entreprises et les développeurs bénéficient dune extraction de données PDF de haute précision qui sexécute entièrement sur site, sans quaucune donnée ne quitte lenvironnement local.
Quatre modules dIA gratuits inclus. OpenDataLoader PDF v2.0 intègre les quatre fonctions dIA suivantes sans coût supplémentaire : lOCR améliore la reconnaissance de texte sur les PDF numérisés et basés sur des images ; lextraction de tableaux,
un modèle dIA léger qui gère avec précision les cellules fusionnées et les structures de tableaux complexes ; lextraction de formules reconnaît les notations mathématiques et scientifiques localement, sans appel au cloud ; et lanalyse de graphiques convertit les visuels en descriptions en langage naturel.
Ces quatre modules sont conçus pour être compatibles avec des modèles open source tiers, notamment Docling. Hancom précise quaucun partenariat ou parrainage formel nest en place ; la compatibilité est purement technique, conçue pour que les développeurs puissent intégrer OpenDataLoader PDF dans leurs flux de travail existants sans refondre leur infrastructure.
Le projet a également abandonné sa licence MPL 2.0 au profit dApache 2.0, lune des licences open source les plus permissives. Ce changement réduit directement les obstacles à lutilisation commerciale, facilitant la tâche des développeurs et des entreprises du monde entier pour bâtir sur OpenDataLoader PDF sans les complications liées à la compatibilité des licences.
Hancom prévoit que cela accélérera les modèles commerciaux en aval, y compris les applications WebApp et SaaS basées sur le moteur. Lintégration de LangChain a été déployée en 2025. En 2026, Hancom cible Langflow, LlamaIndex et Gemini CLI, ainsi que le support du protocole MCP (Model Context Protocol) pour les flux de travail dIA agentique.
La feuille de route positionne OpenDataLoader PDF comme une infrastructure pour lère des agents dIA autonomes, et non comme un simple outil danalyse autonome. Plus tard en 2026, un module dIA commercial est prévu, décrit comme un concentré de la technologie propriétaire dIA documentaire de Hancom.
Lélément le plus prospectif de cette feuille de route concerne laccessibilité des PDF. Avec lentrée en vigueur de lActe Européen sur lAccessibilité (EAA), le durcissement de la législation anti-discrimination en Corée du Sud et lextension mondiale des réglementations, la conformité est devenue une réelle charge opérationnelle pour les entreprises. Hancom affirme quOpenDataLoader PDF sera le premier outil PDF open source à inclure le balisage daccessibilité généré par lIA.
Il sagira de la première solution open source offrant une étape clé vers la conformité PDF/UA. OpenDataLoader PDF v2.0 est disponible dès maintenant. Le code source, les jeux de données de référence et la documentation sont publiés sur le dépôt GitHub officiel dOpenDataLoader PDF.

















