Extraction intelligente du contenu

Voici quelques exemples de technologies mises en place par ISAKO dans ce domaine :

Captation avancée des tableaux

Il s’agit de structurer du contenu tabulaire à la base des méthodes issues d’analyse des formes.
Cela est particulièrement utile pour des tableaux n’ayant pas de bordures où la structure tabulaire logique dépend entièrement de l’interprétation humaine.

Segmentation et linéarisation

Il s’agit de grouper les caractères en mots et les mots en lignes au sein de blocs de texte dont la verticalité est ambiguë. Cela est le cas dans les textes imprimés à l’origine en lignes qui ne sont pas droites (angle ou selon une courbure) comme pour les textes issus d’un scan qui a conduit à une déformation non-linéaire. Par exemple, quand les originaux ne sont plus droits ou quand les contraintes des reliures ne permettent pas d’aplatir les pages scannées.
Une variante originale de la même technologie permet également de gérer les indices et exposants et de les attacher à la ligne principale à laquelle ces caractères se réfèrent.

Séparation entre texte et image

Il s’agit de défaire et d’interpréter l’empilement des objets au sein d’un fichier PDF vectoriel afin de permettre d’en extraire le texte dans sa totalité – ainsi que l’ensemble des enrichissements typographiques – et également de constituer la totalité des autres objets – images et paths – en tant qu’une seule image de fond. Cette technologie oblige à maitriser le Z-order de chaque objet et les contours de la couverture multi-objets même quand celle-ci est partielle.
La technologie permet de créer des ePub en Fixed Layout où le texte reste entièrement vectoriel et ainsi atteindre un excellent confort de lecture.

Langues asiatiques (CJK)

Il s’agit d’extraire correctement des textes en langues asiatique – Chinois, Japonais et Coréen (CJK) – par des algorithmes automatiques. Cela couvre un ensemble technologique complet qui commence par le bon décodage des polices de caractères, la détection de l’ordre de lecture – gauche-droite/haut-bas – l’extraction des caractères dans l’ordre de la lecture (qui n’est pas forcément l’ordre des objets dans le fichier PDF) et la structuration en texte reflowable avec répartition correcte – logique et physique – entre blocs, ligne et mots.

Langues bi-directionnelles

Il s’agit de convertir le flux physique de caractères – typiquement coupés de façon arbitraire en lignes verticales – en un flux logique pouvant être traité par des algorithmes informatiques tels que les extractions, les indexations et les structurations. Pour rappel, la grande difficulté vient du caractère bi-directionnel des langues concernées (par exemple l’arabe et l’hébreu) où une même ligne contient des mots dont la lecture se fait de droite à gauche *et* des mots dont la lecture se fait dans l’ordre inverse. De plus, le changement de direction s’opère cross-lignes.