L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités
DOI :
https://doi.org/10.55790/journals/ressi.2020.e2106Mots-clés :
Humanités numériques, OCR, Reconnaissance Optique de Caractères, Intelligence Artificielle, Bodmer Lab, TesseractRésumé
Cet article présente un projet de recherche, en collaboration avec le Bodmer Lab, qui a consisté à océriser des imprimés latins de la Renaissance, afin d’en obtenir une transcription et de la rendre explorable par la recherche plein texte.
Quatre logiciels d’océrisation gratuits et open source ont été testés, avec comme métriques la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Tesseract et OCR4all étaient les plus performants, mais ce dernier présentait un problème technique qui rendait son utilisation complexe. Tesseract, qui présentait alors une F1 de 78.62% (caractères) et 31.78% (mots) a donc été retenu pour la suite du projet.
Différentes méthodes ont été testées pour améliorer les résultats obtenus. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots a pu être obtenue.
Abstract
This article presents a research project, in collaboration with Bodmer Lab, which consisted of using an OCR software on Latin prints from the Renaissance, in order to obtain a transcription and make it explorable through full-text research.
Four free and open source OCR software were tested, with accuracy, recall, and F-measurement (F1) at character and word level as metrics. Tesseract and OCR4all were the best performers, but the latter presented a technical problem that made its use complex. Tesseract, which at the time had an F1 of 78.62% (characters) and 31.78% (words) was therefore chosen for the rest of the project.
Different methods were tested to improve the results obtained. Not all methods were necessarily effective, but thanks to some of them, an F1 of 80.06% at character level and 34.58% at word level could be obtained.
Zusammenfassung
Dieser Artikel stellt ein Forschungsprojekt in Zusammenarbeit mit dem Bodmer-Lab vor, das darin bestand, ein OCR-software mit lateinischen Drucken aus der Renaissance zu benutzen, um eine Transkription zu erhalten und sie durch Volltextforschung erforschbar zu machen.
Vier freie und open source OCR software wurden getestet, wobei Genauigkeit, Rückruf und F-Messung (F1) auf Zeichen- und Wortebene als Metriken verwendet wurden. Am besten schnitten Tesseract und OCR4all ab, wobei letzteres ein technisches Problem aufwies, das seine Anwendung komplex machte. Daher wurde Tesseract, das zu diesem Zeitpunkt einen F1 von 78,62% (Zeichen) und 31,78% (Wörter) hatte, für den Rest des Projekts gewählt.
Es wurden verschiedene Methoden getestet, um die erzielten Ergebnisse zu verbessern. Nicht alle Methoden waren notwendigerweise effizient, aber dank einiger von ihnen konnte eine F1 von 80,06% auf Zeichenebene und 34,58% auf Wortebene erreicht werden.

