Les périodiques et autres revues gagnent à être diffusés en mode texte. Dans l’ensemble, cela facilite la recherche au sein des contenus textuels et permet d’obtenir une meilleure qualité de lecture. Azentis vous propose notamment une solution de conversion et d’indexation.

L’OCR est efficace pour extraire le texte de l’image, alors que l’ALTO et le TEI sont des normes qui permettent de structurer ce texte.

ALTO

Tout d’abord, L’ALTO est basé sur le format XML et est géré par un schéma structuré. D’ailleurs, il est de plus en plus utilisé dans des institutions en charge de conserver des fonds patrimoniaux. Il sert notamment à stocker les informations concernant la disposition et le contenu de n’importe quel document imprimé. Par conséquent, il conserve toutes les coordonnées géométriques des contenus (textes, graphiques, illustration) dans l’image et permet la superposition de l’image et du texte ainsi que la surbrillance du mot recherché dans une requête.

Alors que l’ALTO est utilisé pour conserver la structure physique d’un document obtenue après OCR, le TEI met en évidence la structure logique.

TEI

En ce qui concerne le TEI, il s’agit également d’un langage de balisage de documents. En d’autres termes, il permet de décrire la structuration d’un texte tel qu’il a été conçu et non son rendu final. C’est-à-dire qu’il offre un cadre méthodologique. Grâce à son système modulaire, la TEI s’adapte aux besoins spécifiques des projets. Il est utilisé pour l’encodage d’inventaires, d’instruments de recherche ou de catalogues anciens de bibliothèque. Les balises TEI définissent les éléments informationnels et la structure logique du texte originel.

alto

Cliquer sur les logos pour en savoir plus sur nos projets.

Votre devis en 48h !