L'intelligence artificielle n’a pas atteint les objectifs espérés ou rêvés, elle permet de déchiffrer à peu près toutes les écritures ...

Chronique N°24 : Tout lire électroniquement

Retour à l'article

L'auteur | Ses articles | Ses ouvrages | Le contacter

Tout lire électroniquement

Nos ordinateurs nous rendent de plus en plus de services et, bien que l'intelligence artificielle n’ait pas atteint les objectifs espérés ou plus exactement rêvés, aujourd'hui elle permet, entre autres, de déchiffrer à peu près toutes les écritures.

Appelée souvent reconnaissance optique de caractères (OCR - de l’anglais « Optical Character Recognition »), cette technique ne peut être exécutée que par l’intermédiaire d’outils informatiques et électroniques puissants qui, de plus, nécessitent pour leurs exécutions un logiciel très sophistiqué de traitement des informations.

Le système va partir de l’image numérique réalisée par un scanner optique à partir d'une page (document imprimé, feuillet dactylographié, …) dont on va récupérer la partie texte. La première contrainte est que la page doit être assez contrastée pour que le programme identifie facilement les caractères.

Par ailleurs, la dernière génération des logiciels d’OCR comportent, en outre, une interface permettant également l'acquisition numérique des images en même temps que le texte.

Le principe de base de l’application consiste à consulter les différentes formes qui composent le document et, grâce à des bibliothèques de symboles, de détecter les caractères orthographiques, numériques et de ponctuation afin de faire correspondre à chaque forme identifiée le caractère attendu.

Afin d’affiner le résultat, l’application d’OCR va utiliser des dictionnaires qui permettront de récupérer certaines erreurs, le logiciel se basant alors sur des mots existants pour faire ses comparaisons textuelles.

Les dernières générations d’OmniPage permettent même tenter de pouvoir conserver l'enrichissement du texte d’origine avec sa structuration, ses mots en gras, en italique ou soulignés ainsi que sa mise en page, voire ses tableaux.

Sachez, pour votre simple curiosité, qu’un des problèmes d’OCR le plus dur à résoudre est celui des anciens registres religieux ou civils des naissances, des mariages et des décès.

En effet, ceux-ci contiennent surtout des noms qui sont, bien sûr, quasiment impossible à vérifier dans un quelconque dictionnaire. De plus, bien souvent, les pages sont endommagées par le temps, l'eau ou le feu … Enfin, et pour ne rien simplifier, il n’est pas rare que les noms soient écrits selon d'anciennes méthodes graphiques ou d’anciennes orthographes …

La reconnaissance de caractère est un domaine actif de recherche depuis la fin des années 1950. Alors qu’au début, on pensait qu'il s'agissait d'un problème facile à résoudre, il est apparu assez rapidement qu'il s'agissait d'un sujet beaucoup plus complexe qu’il n’y paraissait.
Aujourd’hui, avec l’augmentation de la puissance des ordinateurs, les applications d’OCR comme OmniPage permettent à chacun d’entre nous de pouvoir accéder et utiliser cette technologie.

Chronique N°24 (c) Gilles de Chezelles

Retour à l'article

Plus d'informations à votre disposition :
Texte2 ... >> en savoir plus