Extraction textuelle & structuration sémantique

Extraction textuelle

Une technologie innovante, mise en place depuis 2010 et améliorée régulièrement, permet à ISAKO d’effectuer l’extraction textuelle des documents scannés sans passer par une relecture mot par mot. Cette technologie, le fruit de la R&D d’ISAKO, permet aux équipes internes et aux partenaires de fournir des livrables de très haute qualité même quand la qualité visuelle des documents scannés en entrée laisse à désirer.
Ainsi, le temps humain nécessaire par mille de signes est divisé par 10. Cela permet aux équipes internes de compenser la différence du coût de travail et de proposer au client final un résultat de très haute qualité pour un coût très compétitif.

La qualité textuelle contractuelle selon la norme NF ISO 2859-4 Octobre 2020 est supérieure à 99.97 % et l’exactitude textuelle réellement constatée est régulièrement supérieure à 99.99 % !

Contenu non structuré

Selon les besoins du client, le texte est livré au sein d’un fichier « texte simple » (.txt) ou au sein d’un fichier WORD. Ce dernier peut être formaté comme suit :
– Respecter – ou pas – la répartition en pages du document d’origine,
– Respecter – ou pas – la répartition en lignes du document d’origine.
Un livrable sous WORD permet de respecter les enrichissements typographiques tel que gras, italique, souligné, indice et exposant.

Contenu structuré

Le cas échéant, le texte issu de l’extraction peut également être structuré sémantiquement. Dans ce cas, les 2 modes de livraison les plus fréquents sont comme suit :

Sous Word

Les différents éléments de la structure sémantique s’expriment par le mécanisme des styles inhérent à WORD. Cela peut être les styles par défaut de WORD ou selon une feuille de style propriétaire demandée par le client.

Sous XML propriétaire

La structuration – et si besoin les enrichissements typographiques – s’expriment par la syntaxe propriétaire telle qu’elle est décrite dans le cahier des charges du donneur d’ordre ou dans la description formelle (DTD ou XSD schéma) du XML attendu en sortie.