9693 mots, temps de lecture 51 minutes.
La transcription automatique des textes intéresse en premier lieu le grand-public. Des smartphones, scanneurs et autres dispositifs dédiés, permettent tout d’abord de photographier des textes. Les contenus, que ceux-ci soient imprimés ou manuscrits, peuvent ensuite être transcrits au format numérique avec un taux de reconnaissance variable. Les documents susceptibles d’être OCRisés sont des livres, articles, rapports, papiers divers, affichages d’écrans, ou bien des portions de ces documents, des fragments de textes, obtenus par capture.
L’OCR (Optical Character Recognition / reconnaissance optique de caractères) fonctionne actuellement à plus de 99% sur les images en 300 dpi d’imprimés modernes, de bonne qualité. Des images au format JPEG ou PNG, des documents PDF constitués de plusieurs images peuvent ainsi être reconnus, de manière assez fiable en général. La reconnaissance de l’écriture manuscrite (HTR – Handwritten Text Recognition), pour le grand public, constitue une innovation plus récente. Plusieurs applications sur mobile ou PC, de même que des services en ligne rendent cette activité relativement aisée, efficace et gratuite, mais par forcément opensource. Dans le cas des manuscrits et tapuscrits, des résultats positifs peuvent être obtenus de manière standard, pour des textes, quelque soit la langue et le type d’écriture. Des modèles de reconnaissance variés tiennent alors compte d’une pile de choses à commencer par la mise en page, le sens de l’écriture, l’alphabet utilisé, la langue du texte d’origine, la graphie et son époque, etc.
Les professionnels des bibliothèques, des archives, des musées de même que les chercheurs, essentiellement dans les domaines de la littérature ou des langues, de l’histoire sous toutes ses formes (histoire politique, histoire de l’art, histoire des sciences, histoire des mathématiques, généalogie) se montrent aussi intéressés. La reconnaissance de tableaux de données ou bien de formules mathématiques représente un défi supplémentaire. Des applications industrielles de ces technologies se retrouve dans une variété de secteurs comme la banque, les assurances, la médecine, le droit, les sciences, l’édition, etc.
En bibliothèque ou en archives, lorsque les textes se montrent généraux, concernent des personnalités connues ou véhiculent des valeurs partagées, les transcriptions corrigées de livres, manuscrits et correspondances peuvent faire appel à la participation du grand-public. C’est en tous cas ce que proposent les Archives de France ou bien Wikisource, pour ne prendre que deux exemples. Des événements peuvent alors être organisés autours de projets de transcription qui peuvent prendre la forme d’un transcribathon. L’engagement de volontaires est espéré. Des règles doivent préalablement être élaborées et suivies par plusieurs acteurs dont les rôles peuvent être ceux de transcripteur, relecteur, validateur, chef de projet, lecteur, etc. Le nombre de pages à traiter, de même que le nombre de participants (de un à plusieurs dizaines) entrent en jeu. Des barres de progression et autres outils visuels améliorent les interfaces et les chances de succès des projets.
Un certain nombre de textes ne se prêtent pas très bien, voire pas du tout, à une approche participative. Il peut s’agir de textes dont l’écriture ou la langue sont peu communes, qui nécessitent des connaissances linguistiques, paléographiques, scientifiques, mathématiques ou bien la maitrise de techniques particulières, dont les contenus sont confidentiels. Des transcriptions diplomatiques peuvent être recherchées. Les historiens et spécialistes de langues rares se montrent alors à la pointe de l’innovation pour des études portant sur l’histoire antique classique, les langues orientales antiques, le Moyen Âge et la Renaissance, l’art, la linguistique, les sciences, etc. Des textes dont l’intérêt se montre essentiellement littéraire peuvent être transcrits et annotés en TEI (Text Encoding Initiative). Il devient ensuite possible, à l’aide de plateformes dédiées, de partager des pratiques et mutualiser de fastidieux travaux, d’obtenir des index. Seuls des groupes de chercheurs, éventuellement aidés d’étudiants, pratiquent ce genre d’activités et se servent en général de plateformes dédiées.
Les textes ainsi reconnus peuvent subir divers traitements. Ils peuvent notamment être traduits ou bien annotés. Plus ou moins adaptées, des fonctionnalités de traduction automatique sont proposées. Des logiciels proposent aussi l’annotation de contenus textuels à l’aide d’étiquettes. Des parties du texte, des mots ou groupes de mots deviennent alors sémantiquement identifiés. Des entités comme des personnes ou des collectivités, des lieux (toponyme, région, bâtiment), des dates ou périodes temporelles, des événements, des artefacts, des terminologies spécifiques d’un domaine peuvent ainsi être mis en évidence. Des parties de textes peuvent aussi être annotées de manière critique. Lors d’études de marketing, des phrases révélant des émotions positives ou négatives peuvent ainsi être mises en évidence.
Comment à partir de lourds documents chargés de pixels obtenir des textes numériques légers et riches ? Quels applications tester et choisir de préférence ? Une veille non exhaustive sur ces questions de l’OCR, de l’HTR et de l’annotation est ici proposée. Quelques uns des formats du secteur sont évoqués. Une attention particulière sera portée à la question des échanges des transcriptions et annotations, aux capacités techniques des logiciels, aux organisations à mettre en place, et aux signatures laissées par les transcripteurs et annotateurs sur des textes qui, pour certains, de quasiment oubliés et ainsi parcourus de nouveau, par les hommes et les machines, discutés et débattus, reprennent vie en quelque sorte.
- Logiciels et services personnels
- 1.1 Des outils populaires pour la reconnaissance des textes, des tableaux et des équations
- 1.2 Éditeurs de PDF pour ordinateur
- 1.2.1 Solutions Adobe
- 1.2.2 Wondershare
- 1.2.3 ABBYY
- 1.3 Plateformes et logiciels personnels de transcription
- 1.3.1 Zotero plateforme de transcription
- 1.3.2 Tropy
- 1.3.3 Tesseract
- gImageReader
- 1.3.4 Transkribus
- OCR, HTR et transcription sur le web
- 2.1 OCR en ligne gratuits
- 2.2 Transkribus.ai
- 2.3 Transkribus Lite
- 2.4 Plateformes Omeka
- 2.4.1 Omeka Classic
- 2.4.2 Omeka S
- 2.5 Transcription et Annotation de Corpus Textuels (TACT)
- 2.6 TEI Publisher
- 2.7 Edition Visualization Technology
- 2.8 eScriptorium
- 2.9 Arkindex
- 2.10 Recogito
- 2.11 Calfa Vision
- 2.12 Autres plateformes web, outils de transcription et d’annotation
- Plateformes et composantes logicielles open source
- 3.1 L’HTR avec Kraken
- 3.2 L’HTR avec OCR4all
- 3.3 Serveurs d’images
- 3.4 Histograph
- 3.5 Visionneuses javascript
- 3.6 PRHLT / TRAN Skriptorium
- Quelques formats du domaine
- 4.1 Formats d’OCR
- 4.1.1 ALTO (XML)
- 4.1.2 PAGE (XML)
- 4.1.3 hOCR
- 4.2 Le format TEI de saisie des transcriptions
- 4.3 Le format IIIF : de l’image en haute résolution, à la visionneuse, et aux annotations
- 4.4 Web Annotation Protocol
- 4.1 Formats d’OCR
- Plateformes pour la transcription collaborative des textes patrimoniaux
1. Logiciels et services personnels
Des contenus textuels peuvent être capturés sous forme d’images (JPG, PNG, BMP, TIFF et autres) ou bien de PDF (Portable Document Format) composés de séries d’images. Plusieurs logiciels ici testés permettent la reconnaissance du texte dans des portions de documents, dans des documents simples ou bien dans des lots de documents.
- Optical character recognition (OCR), How OCR works, 2021, par Chris Woodford : Lien
- Comment faire lire des gribouillis à mon ordinateur ?, 2021, par Alix Chagué : Lien
1.1 Des outils populaires pour la reconnaissance des textes, des tableaux et des équations
1.2 Éditeurs de PDF pour ordinateur
Le Portable Document Format a été créé en 1993 par Adobe et il a fallu près de dix ans pour qu’il finisse par convaincre et devenir un standard ouvert, utilisé par des logiciels payants, gratuits et opensource. Les PDF océrisés sont constitués de deux couches. Une couche au format image superpose la couche au format texte numérique, dans laquelle se trouve le texte reconnu. L’impression résulte en un rendu indépendant de la marque de l’ordinateur ou de l’imprimante (d’où le P de PDF dans Portable Document Format). Le PDF ainsi obtenu devient possible à chercher et le texte reconnu peut être aussi copié par sélection à l’aide de la souris.

1.2.1 Solutions Adobe
De nombreuses sociétés, à commencer par Adobe, proposent des solutions payantes, pour créer et éditer des PDF. Il convient tout d’abord de citer les logiciels Adobe : Acrobat Standard et Acrobat Pro. La plateforme web Adobe Document Cloud constitue une alternative sécurisée pour le partage des documents. Ces solutions onéreuses se montrent loin d’être obligatoires. Plusieurs sociétés proposent des alternatives et mettent à disposition des versions d’essai gratuites de qualité.
1.2.2 Wondershare
Ainsi, la société Wondershare met à disposition une version d’essai de son logiciel PDFelement Pro. L’OCR est disponible sous forme d’une extension au logiciel de base. La dernière version du programme rend possible le traitement par lot. On remarque ci-dessous la qualité de la reconnaissance obtenue. La segmentation de la mise en page est automatique. Petit bémol poussant à l’achat : un filigrane est ajouté au PDF.
- PDFelement Pro de Wondershare : Modifiez et extrayez du texte d’images avec OCR : Lien
- PDFelement User Guide for Windows, PDF : Lien
- PDFelement User Guide for Mac, PDF : Lien

J.C.R. Licklider, Libraries of the future, 1965 : Lien
1.2.3 ABBYY
Créée par David Yang en 1989, la société ABBYY dispose d’un solide savoir-faire dans le domaine de l’OCR professionnel. L’interface de l’éditeur de PDF ABBY FineReader 15 est construite autours de plusieurs panneaux, dont l’un se montre spécifiquement dédié à l’édition et l’OCR. Une colorisation syntaxique met en évidence les parties du texte incertaines, sur lesquelles il peut être nécessaire de revenir. Une fenêtre dédiée à la relecture est proposée. Les sauvegardes sont possibles en une variété de formats parmi lesquels PDF (interrogeable, image), Word, Excel, EPUB, HTML, ODT, DjVu. Des fonctionnalités spéciales sont développées depuis 2003, dédiées à la reconnaissance des polices de caractère gothiques, particulièrement présentes dans la littérature et la presse des pays germaniques du XVIe au XXe siècle. Le logiciel peut reconnaitre des formules mathématiques simples. Disponible pour Windows ou Mac, en version d’essai gratuite pour 7 jours,
- Abbyy FineReaderPDF, Old European languages and gothic fonts : Lien
- ABBYY® FineReader PDF 15, Guide de l’utilisateur, PDF : Lien

1.3 Plateformes et logiciels personnels de transcription
Des logiciels individuels peuvent faciliter la transcription de documents simples ou de collections de documents ordonnés. Plusieurs solutions apportent des facilités pour gérer de multiple documents, accompagnés de leur transcription.
- La transcription des écritures manuscrites: notes sur un atelier organisé par le BnF Data Lab, Noémie Lucas, 2021 : Lien
1.3.1 Zotero plateforme de transcription
Le gestionnaire de références bibliographiques Zotero peut servir d’outil de transcription individuel. Les documents à transcrire (ici une lettre de Mme de Sévigné) sont stockés sous forme de pièce jointe dans une version locale de Zotero. La transcription de chaque image peut alors être réalisée sous forme de note liée à l’image. La transcription de l’ensemble de même que des notes de bas de page peuvent être rassemblées sous forme d’un fichier du type Note au format HTML ou XML TEI, attaché à la racine du document.
Après activation de la synchronisation avec le site web Zotero, les images des sources et les transcriptions sont possiblement vues et partagées. Une personne peut ainsi travailler depuis divers postes sur le même document. Un groupe peut éventuellement gérer de manière répartie un petit ensemble de documents à transcrire. Le format d’export le plus complet est Zotero RDF.

1.3.2 Tropy
Tropy est un logiciel de bureau open source disponible pour tous OS, spécialement dédié à la gestion d’images, de groupes d’images et de collections, ainsi qu’aux métadonnées associées à ces images. Les fichiers admis sont JPG, PNG, SVG, TIFF, PDF, JP2000, WEBP, etc. L’usage de documents d’archives d’archives (textes, images fixes, photographies, gravures, tableaux) est conseillé. Des fonctions basiques d’édition d’image sont disponibles. Parmi les formats de métadonnées standard, on note Dublin Core, les vocabulaires RDF, Europeana.
Il est possible de naviguer dans l’arborescence d’un projet, de passer de la vue d’ensemble à la vue d’un item, de chercher parmi les métadonnées. L’import par lot se montre possible à l’aide de fichiers aux formats JSON-LD ou CSV. Chaque item peut contenir une ou plusieurs photos. Les métadonnées de l’appareil de photo sont importées directement. Des mots clés (Tag) permettent de qualifier un item. Des métadonnées particulières peuvent être ajoutées à une sélection d’une portion d’image. La transcription est faite depuis un formulaire.
Les formats d’export des métadonnées sont JSON-LD, Omeka S ou CSV. Un plugin spécial de Tropy rend possible l’exportation directe des données vers un site Omeka S. Le plugin Archive permet l’export simultané des images et des transcpitpions au format zip. Plusieurs transcripteurs peuvent ainsi collaborer sur un projet d’ampleur. Créé en 2017, le logiciel est écrit en javascript, framework electron, BDD SQLlite. L’architecture de Tropy se montre modulaire : plugin IIIF. Pas d’OCR ni d’HTR intégré par contre.
- Tropy : Lien
- Sur Wikipedia, en : Lien
- Documentation, en : Lien
- Code source et plugins : Lien
- Tropy, 4 vidéos, 2018 : Lien
- Export to Omeka S : Lien
- Un logiciel pour gérer les photos d’archive: recension de Tropy, 2018, Atelier Ideas & Research : Lien

1.3.3 Tesseract et gImageReader
Spécialisé dans l’OCR opensource, le logiciel Tesseract s’avère relativement ancien, mais reste largement utilisé car il a su évoluer et s’adapter aux nécessités du présent. Initialement développé au format propriétaire en langage C, par Hewlett Packard, de 1985 à 1994 au HP Labs Bristol et à Greeley Colorado, le programme migre ensuite vers C++, à partir de 1998. En 2005, le logiciel devient libre, disponible sous licence Apache 2.0. A partir de 2006, Google sponsorise les développements. Le développeur principal, Ray Smith, devient alors employé de Google.
Un important effort de modernisation du code a été fourni pour la quatrième version de Tesseract (2018). Celle-ci inclut une méthode de LSTM (Long short-term memory), qui permet de mieux isoler les caractères individuels dans un flux de texte. La 5ème version majeure date de fin 2021. Formulés en plusieurs langues, des dictionnaires de caractères et de mots viennent augmenter les chances de reconnaissance. Plus d’une centaine de langues sont actuellement disponibles, avec écriture de gauche à droite ou l’inverse. Les entrées se font aux formats image BMP, PNM, PNG, JFIF, JPEG, TIFF au choix. Les sorties sont possibles aux formats plein texte, hOCR, PDF, TSV et XML/ALTO. Tesseract peut, au choix de l’utilisateur, reconnaitre le texte du document au format TXT, ou bien ajouter une couche de texte sous l’image dans un document PDF de sortie.
Après installation, les interactions en ligne de commande se montre essentiellement possibles sous Windows, et Linux Ubuntu. Le langage de programmation Python (bibliothèques pytesseract, OCRmyPDF, notamment) vient faciliter l’usage de certaines fonctionnalités.
- Slides from Tesseract Tutorial at DAS Santorini, 2016, Ray Smith : Lien
- Tesseract OCR, code source sur git : Lien
- Install and Run Tesseract OCR for Windows in 4 Easy Steps : Lien
- Tesseract OCR, Ubuntu : Lien
- Tesseract User Manual : Lien
- GUIs and Other Projects using Tesseract OCR : Lien
- Débuter avec Tesseract (et pytesseract), 2019, Benoit Cayla : Lien
- Utilisation avancée de Tesseract avec Python, 2020, Benoit Cayla : Lien
- Tesseract User Manual, Improving the quality of the output : Lien
- How to OCR with Tesseract, OpenCV and Python, 2022, Filip Zelic, Anuj Sable : Lien
- pytesseract : https://pypi.org/project/pytesseract/
- OCRmyPDF documentation : Lien
gImageReader
Pour les utilisateurs réticents à ce genre d’opérations, des interfaces graphiques existent et sont listées dans la documentation de Tesseract. Les licences de ces offres se montrent indifféremment libres ou propriétaires pour un usage sur ordinateur personnel, sur le web ou sur smartphone. Les commandes possibles avec Tesseract sont documentées en anglais et des conseils sont donnés pour augmenter la qualité des transcriptions. On notera gImageReader (pour Linux et Windows, interface Gtk/Qt), parmi les outils libres facilitant l’édition de textes OCRisés avec Tesseract.
1.3.4 Transkribus
Le développement du logiciel de bureau Transkribus a été financé par deux projets européens successifs tranScriptorium (2013-2015) et READ (Recognition and Enrichment of Archival Documents – 2016-2019). Il fut développé à l’Université d’Innsbrück, en partenariat avec le Pattern Recognition and Human Language Technology Center (PRHLT) de l’Université technique de Valence (Espagne), le Computational Intelligence Technology Lab de l’Université de Rostock et le Département d’histoire de l’Université de Montréal. La société READ-COOP assure depuis 2019 la maintenance du code source et les développements. Le modèle économique repose sur le libre accès au code source et la commercialisation de certains traitements. Des contrats passés avec la société concernent des projets nationaux et européens. Le logiciel doit être connecté aux serveurs de Transkribus pour accéder à certaines fonctionnalités.
Une image à analyser (en résolution supérieure à 300 dpi de préférence) est chargée et devient visible dans l’interface. La reconnaissance du texte se fait en trois étapes successives lancées manuellement. 1/ Analyse de la mise en page (layout). Cela est réalisé depuis l’onglet « Tools » de l’interface dans la partie « Layout Analysis » en lançant le bouton « Run ». Un job (processus) est lancé. Le logiciel affiche les zones du document considérées comme lignes à transcrire et les numérote. 2/ Reconnaissance optique. Sous « Tools » également dans la partie « Text Recognition », un modèle entraîné est choisi, par exemple « Transkribus French Model 1 » et appliqué à l’image. 3/ Vérification manuelle et ajout d’éventuels mots-clés (abréviations, annotations).
A noter en matière de qualité des images qu’un prétraitement peut s’avérer nécessaire pour obtenir une bonne reconnaissance des manuscrits. La bibliothèque OpenCv est fréquemment utilisée pour cela. Les fonds coloriés et tramés par exemple rendent moins performante l’HTR des modèles. Une image disponible au format IIIF peut être téléchargée et analysée dans le logiciel. Il suffit pour cela de renseigner l’URL de son manifeste. L’import est indiqué comme job en cours et le document devient téléchargé. Transkribus rend ensuite possible la recherche « plein texte » dans les images ou les textes transcrits. Il est possible, même en présence d’une transcription erronée, de lancer une recherche de mots-clés (recherche « floue », keyword spotting).
En ce qui concerne les exports de transcription, les formats Transkribus Document, PDF, TEI, DOCX et texte simple sont possibles. L’export est réalisé au choix sur le serveur ou bien localement et se fait notamment au format METS (Metadata Encoding and Transmission Standard), un schéma qui permet d’englober images, métadonnées et transcriptions. Il faut quelques heures pour prendre en main et utiliser Transkribus efficacement dans le cadre d’un projet : c’est assez rapide pour les fonctions de bases nécessaires à la transcription (segmentation et saisie), mais certains automatismes s’acquièrent peu à peu et permettent de gagner du temps sur la saisie. Le temps moyen de transcription (segmentation, saisie) puis de relecture d’une page manuscrite moderne est d’environ 20 minutes.
Abondante documentation en anglais. Parmi les 89 modèles rendus publiquement disponibles en 2022, 7 concernent l’écriture manuscrite en français, 7 autres les imprimés français du XVIIème au XXème siècle. La plateforme se montre partiellement gratuite sous la forme de 500 crédits gratuits. Le cout se monte ensuite à 18€ pour 120 crédits. 1 crédit par page manuscrite, 1 crédit pour 6 pages imprimées.
Transkribus a été récemment utilisé en France sur plusieurs projets ANR comme par exemple TIME-US : Travail, rémunération, textile et foyer (XVIIe-XXe siècle). Répartie entre Paris, Lille, Marseille et Lyon, l’équipe de chercheurs réunit les membres de plusieurs laboratoires. Les archives de Foucault sont également traitées à l’aide de cette plateforme dans le projet Foucault Fiches de Lecture (FFL, 2017-2020). Le consortium de laboratoire Paris Time Machine, également, utilise Transkribus pour transcrire une série d’annuaires imprimés des rues de Paris, datés de 1898 à 1913, et d’en obtenir ainsi une version numérique.
- Entrepôt des codes sources de READ COOP : Lien
- How To Transcribe Documents with Transkribus – Introduction, 2021 : Lien
- How To Enrich Transcribed Documents with Mark-up, 2021 : Lien
- How To Export Documents from Transkribus, 2021 : Lien
- Public AI models in Transkribus : Lien
- How to historical text recognition: A Transkribus Quickstart Guide, 2019, LaTeX Ninja : Lien
- TIME-US : Travail, rémunération, textile et foyer (XVIIe-XXe siècle), 2017-2020 : Lien
- TIME-US, le wiki, Guide d’annotation : remarques générales : Lien
- Deux siècles de sources disparates sur l’industrie textile en France : comment automatiser les traitements d’un corpus non-uniforme ?, 2019, Jean-Damien Généro, Alix Chagué, Victoria Le Fourner, Marie Puren : Lien
- Transcribing and editing digitized sources on work in the textile industry, 2021, Jean-Damien Généro, Alix Chagué, Victoria Le Fourner, Marie Puren : Lien
- Le projet Foucault Fiches de Lecture (FFL), 2017-2020 : Lien
- Transcrire automatiquement les fiches de lecture de Michel Foucault avec Transkribus : retour d’expérience, 2019, Marie-Laure Massot, Vincent Ventresque : Lien
- Transcription assistée par reconnaissance optique avec Transkribus : L’expérience du journal intime d’Eugène Wilhelm (1885-1951), 2020, Régis Schlagdenhauffen : Lien
- Paris Time Machine, visualiser les adresses d’annuaires parisiens, 2021, Carmen Brando, Frédérique Mélanie : Lien

2. OCR, HTR et transcription sur le web
De nombreux acteurs, publics ou privés, ont choisi de créer des logiciels web, accessibles depuis un simple navigateur, capables de fournir aux particuliers ou à des communautés d’utilisateurs différents services d’aide à la transcription. Ces services se montrent tout à fait pertinents pour de faibles volumes de textes non confidentiels.
2.1 OCR en ligne gratuits
Pour ceux qui n’utilisent que très ponctuellement l’OCR, de nombreux sites proposent de téléverser images et PDF en vue de rendre sans frais un document OCRisé. Quelques unes des possibilités sont listées ci-dessous :
- Soda PDF, OCR gratuit en ligne : Lien
- Docsumo, Free Online OCR Scanner : Lien
- Drive de Google. Cliquez avec le bouton droit de la souris sur le fichier souhaité, cliquez sur « Ouvrir avec > Google Docs ». L’OCR et l’HTR se montrent fonctionnels : Lien

2.2 Trankribus.ai
Développé par la société autrichienne READ COOP, comme le logiciel de bureau vu précédemment, Transkribus.ai est un service web gratuit, dédié à la reconnaissance des textes manuscrits ou imprimés au format image. Les fonctionnalités du site se basent sur l’API metagrapho payante. Un modèle Transkribus pré-entrainé est appliqué au document dont l’écriture manuscrite est à traiter. L’interface web se montre fort simple. Il est possible dans un premier temps de choisir la langue du document à transcrire. Les choix possibles comprennent 15 langues européennes, y compris le latin. On choisit ensuite Handwritten pour les manuscrits, ou bien Print pour les imprimés. Le fichier à transcrire est soumis et un panneau localisé à gauche de l’interface affiche l’image.
Après téléchargement du fichier, au bout d’un certain temps, la transcription s’affiche dans la partie droite de l’interface. Le texte ainsi obtenu peut ensuite être édité et corrigé manuellement dans l’interface. La transcription proposée respecte les retours à la ligne. Proposé tout en bas à droite du panneau de transcription, un export en PDF ou Word de l’image doublée de sa transcription est ensuite possible.
- Transkribus.ai : Lien

2.3 La plateforme web Transkribus
Toujours développé par READ COOP, la plateforme web Transkribus constitue une application web professionnelle, plus complexe que celle vue précédemment, dont certaines fonctionnalités se montrent gratuites. Après inscription sur le site, il est possible, de créer, gérer et mémoriser les travaux menés sur des collections de documents. La transcription assistée de documents manuscrits ou imprimés, écrits en différentes langues européennes y compris le français, s’y montre possible. De nombreuses possibilités de transcription d’images, d’annotation des textes transcrits et de recherche dans les documents d’un corpus sont ainsi mises à disposition. Les projets sont mémorisés.

Les textes transcrits peuvent être exportés aux formats TXT ou bien Prima PAGE-XML. Ce dernier format, sur lequel nous reviendrons plus tard, permet de récupérer la transcription de même que l’annotation, le tout accessible en un seul fichier XML. A noter également la possibilité d’annoter sémantiquement des termes à l’aide d’entités de Wikidata, la base multilingue du web de données dérivée de Wikipédia.
Quelques essais faits sur un tapuscrit et un manuscrit sont ici montrés. Le tapuscrit se montrait mal reconnu par Tesseract et moyennement par ABBYY Finereader 15. Les résultats se montrent satisfaisants, en choisissant un modèle de reconnaissance standard entrainé sur du français. Pour les textes imprimés comme manuscrits standards, Transkribus propose une interface agréable, ne nécessitant aucune formation. La documentation n’est cependant disponible qu’en anglais.
- La plateforme web Transkribus : Lien
- Getting Started with Transkribus Lite. Documentation en anglais : Lien
- Training my own Handwritten Text Recognition (HTR) model on Transkribus Lite, 2022, LaTeX Ninja : Lien



2.4 Plateformes Omeka
Pour ceux qui souhaitent installer leur propre plateforme web en vue de rendre les travaux de transcription de leurs équipes accessibles et visibles du public, les deux logiciels Omeka constituent des solutions possibles. Produits par Digital Scholar, ils permettent la gestion, l’affichage et l’indexation de collections de documents numériques de toutes catégories : texte, image, son, vidéo. Des thèmes et modules permettent la personnalisation des sites produits et l’éventuel ajout de fonctionnalités de transcription, le visionnage des image haute résolution en IIIF. Créé en 2007, Omeka Classic, permet l’indexation des documents au format Dublin Core essentiellement. Publié en 2016, Omeka S pour sémantique, permet l’usage d’ontologies autres que Dublin Core. Des notices susceptibles de décrire des personnes, des organisations, des concepts peuvent être créées et liées entre elles et avec d’autre référentiels, dans l’esprit du web sémantique.
2.4.1 Omeka Classic
La solution la plus simple consiste à enregistrer la transcription en un champs au format texte, positionné en regard du document original. Ainsi, dans le projet Les procès-verbaux du Bureau des longitudes, les documents sont rangés dans des collections. Les transcriptions sont renseignées sous forme de métadonnée du champs Dublin Core « Description », ce qui les rend aisées à interroger à l’aide du moteur standard d’Omeka classic. Les moissonnages sont possibles à l’aide du protocole OAI-PMH.
Parmi les plugins possibles à installer lors d’un projet de transcription, certains rendent possible la récupération automatique de l’OCR à partir des PDF. D’autres ajoutent des fonctionnalités de transcription en TEI, comme par exemple le plugin Transcript développé pour la plateforme EMAN. Une autre possibilité consiste à mettre en place le modules Scripto, spécifiquement conçu pour faciliter la transciption. Ce plugin nécessite l’installation préalable d’un site MediaWiki, dans lequel les transcriptions seront gérées et versionnées.
- Transcript, TEI transcription for Omeka Classic content : Lien
- La correspondance inédite du géomètre Gaspard Monge (1746-1818), ENS, Plateforme e-Man : Lien
- Édition numérique de la correspondance de Marcel Proust, Labo Litt&Arts, Plateforme ELAN : Lien
- Mines Paris Tech, bibliothèque patrimoniale numérique, Paris, site participatif : Lien
- Les procès-verbaux du Bureau des longitudes, Un patrimoine numérisé (1795-1932), AHP-PReST, Plateforme AHP-numérique : Lien
- Projet e-LV; Fonctions et produits; Quelques remarques des confins de la psychologie, grammaire et logique. Twardowski, Kazimierz : Lien
2.4.2 Omeka S
Il est possible et relativement aisé de pratiquer des transcriptions à l’aide d’une version standard du gestionnaire de contenu Omeka S. Un item est créé, dans lequel sont entreposés conjointement les images à transcrire. Un fichier HTML est créé, dans lequel la transcription est entreposée. D’autres solutions plus complexes ou intégrée existent également.
Développée par le campus Condorcet et l’IMAF (Institut des Mondes Africains), la plateforme Transcrire héberge plus d’une dizaine de projets de transcription de manuscrits dont certaines autours des correspondances ou de carnets de terrain. Le design et la mise au point de nouveaux modules sont confiés au prestataire Limonade & Co. La plateforme a été migrée d’Omeka Classic à Omeka S et intègre les fonctionnalités de Scripto.
Un autre module nommé DataScribe est développé en 2022 par Digital Scholar. Il permet la transcription à l’aide d’une interface dédiée. Des documents du type « Tableau de données » en provenance d’archives institutionnelles peuvent ainsi être transcrits. De nombreuses données présentées sous forme de tableaux, telles que des registres de naissance, des documents comptables militaires et civils se trouvent ainsi renseignées. L’image sur la gauche et la transcription sur la droite sont bien simultanément visibles dans l’interface. Pas d’HTR cependant. Celle-ci doit être réalisée préalablement sur une autre plateforme.
- Plateforme Transcrire : Lien
- Transcrire avec Omeka S et Scripto, Limonade & Co : Lien
- Scripto, transcribe and translate items : Lien
- Datascribe : Lien
2.5 Transcription et Annotation de Corpus Textuels (TACT)
TACT, plateforme de Transcription et d’Annotation de Corpus Textuels est lancée en 2019. Porté par l’UMR Litt&Arts de l’Université Grenoble Alpes, de conception récente, le site reste encore en cours d’évolution. Certains projets se montrent ouverts à des participations externes et affichent des documents numérisés. La plateforme prend en compte la structure éventuellement arborescente d’une collection d’images. Les données peuvent être importées au format normal ou compressées en zip. Les documents sont décrits par défaut au format Dublin Core simple.
Lorsqu’une opération de transcription est en cours, l’accès à la page devient bloqué, ce qui constitue une étape indispensable lors de travaux collaboratifs. L’OCR peut être déclenché à la demande et fonctionne bien sur les imprimés avec Tesseract. Le zoom motorisé par OpenSeadragon se montre fluide et intuitif. Les images peuvent provenir d’un serveur IIIF, tel que déployé par exemple sur des plateformes Omeka, Nakala, Gallica, Biblissima, Agorha, Europeana et d’autres.
L’interface de transcription peut être paramétrée en fonction des projets dans le but de mettre à disposition du transcripteur une variété d’annotations. Des éléments physiques d’un texte (titre, page, paragraphe, rature d’un manuscrit, interligne) peuvent être annotés. Il est également possible de configurer l’interface de manière à annoter des aspects sémantiques du corps du texte. Les noms de personne, de date, de lieu et autres peuvent être également annotés. La configuration de l’interface de transcription se fait à l’aide d’un fichier JSON, possiblement dans le respect de TEI.
En ce qui concerne l’export des transcriptions et annotations, il se fait par défaut en un format XML « TACT » dédié. Une feuille de style XSL peut être appliquée au XML afin par exemple d’obtenir un document au format TEI valide. Au niveau informatique, on note le code source écrit en PHP Symfony 4 / MySql en libre accès. Les inscriptions sur TACT sont filtrées par le responsable de projet et les transcriptions sont signées par chacun des contributeurs.
- Plateforme TACT : Lien
- Documentation utilisateur : Lien
- Documentation sur GitLab : Lien
- Code source, PHP Symphony, installation via Docker, Docker-compose : Lien
- Les brouillons de La Réticence, terrain d’expérimentations, 2021, Brigitte FERRATO COMBE : Lien
- TACT, plateforme collaborative de transcription et d’annotation de corpus textuels, a été lancée le 4 juin 2019 avec le concours de notre équipe ELAN. Que s’est-il passé depuis ?, 2021, ELAN : Lien


2.6 TEI Publisher
Le logiciel TEI Publisher rend possible la création de plateformes dédiées à la publication sur le web de documents transcrits au format TEI. Les possibilités techniques incluent le parcours page par page, la recherche, l’export en divers formats, l’affichage côte à côte du texte et de l’image, quelque soit la taille de l’écran, la recherche. TEI Publisher intègre la cartographie et supporte pour les images le format IIIF.
Les documents sont rendus en divers médias tels que HTML, XML, LaTeX, PDF ou ePUB. L’initiative est supportée en partie par la société suisse à but non lucratif « e-editiones.org », de même que par une communauté de développeurs tournant autour du format XML TEI.
TEI Publisher se montre en fait une des applications de la base opensource eXist-db nativement basée sur XML, elle-même développée en Java. L’application peut être installée à partir du gestionnaire de paquets dans l’interface d’administration. Une image Docker de l’ensemble est également disponible. Une plateforme de démonstration est accessible. Une extension de l’éditeur de code Visual Studio offre d’intéressantes possibilités pour l’édition.
Le logiciel sert avec succès des projets éditoriaux universitaires et commerciaux d’importances diverses. Un exemple d’édition emblématique en trilingue anglais, néerlandais et français est celui de la correspondance de Vincent Van Gogh, réalisée en 2018 sous TEI Publisher à partir des travaux précédents du Musée Van Gogh et de ses chercheurs.
- TEI Publisher. The Instant Publishing Toolbox, requires the eXist XML database to operate : Lien
- TEI Publisher Extension for Visual Studio Code : Lien
- https://www.e-editiones.org/
- Van Gogh Letters : https://teipublisher.com/exist/apps/vangogh/letters.html, https://vangoghletters.org/vg/
- Office of the Historian, Foreign Service Institute : https://history.state.gov/
- DiScholEd – Éditions scientifiques numériques, Huma-Num (une des cinq instances) : Lien
2.7 Edition Visualization Technology
Le projet EVT est une initiative de l’Université de Pise qui en est actuellement à sa troisième version. Il doit ses origines au projet de transcription Digital Vercelli Book. Le logiciel evolved in a tool suitable to fit different texts and needs. For example, it is now being used to publish the digital edition of the Codice Pelavicino manuscript, a medieval codex preserving charters dating back to the XIII century. The continuous development and need to adapt it to different types of documents and TEI-encoded texts has shifted the development focus towards creation of a more general tool for the web publication of TEI-based documents, able to cater for multiple use cases.
- Edition Visualization Technology : Lien
- Edition Visualization Technology, le blog : Lien
2.8 eScriptorium
eScriptorium est la plateforme de transcription du projet de Paris Sciences Lettres Scripta motorisée par la bibliothèque logicielle d’HTR Kraken. Ce projet ambitieux débute en 2018 avec l’arrivée de Peter Stokes à l’EPHE (École Pratique des Hautes Études), Université PSL. Il vise à fournir aux chercheurs en sciences humaines un ensemble d’outils intégrés capable d’apporter une aide intégrée à la transcription, l’annotation, la traduction et la publication de documents d’intérêt historique.
La plateforme permet l’OCR et l’HTR. Elle intègre des capacités complexes de recherche, de filtrage, d’annotation et des formes simples de travail collaboratif, incluant la numérotation des versions des transcrits produits. Possibilité d’import d’images au format IIIF, détection des lignes automatiques avec direction de l’écriture (manuel ou automatique, problème complexe), interface de transcription. Les modèles HTR peuvent être exportés ou publiés sur le Zenodo OCR/HTR repository. Difficulté de l’entrainement d’un modèle. Possibilité usage personnel, configuration pour petits groupes (Vietnamica, EPHE) ou bien consortium (ManuscriptologistIA). Nécessité de mettre en place une instance locale. Pas d’instance de démonstration. Voir Kraken.
- Prendre en main eScriptorium, LECTAUREP, L’intelligence artificielle appliquée aux archives notariales : Lien
- eScriptorium, A project providing digital recognition of handwritten documents using machine learning techniques : Lien
- Le blog du projet : escripta.hypotheses.org
- The eScriptorium source code: gitlab.inria.fr/scripta/escriptorium
- Démonstrations en vidéo : Lien
- There’s also an overview with embedded videos in French at https://ephenum.hypotheses.org/1412
- Ateliers HTR, projet e-NDP, transcription participative des registres de décisions du chapitre Notre-Dame de Paris des années 1326-1504 : Lien
2.9 Arkindex
Développée par la société Teklia spécialisée en IA et impliquée dans l’important projet Biblissima+ (Campus Condorcet, 2021-2029), Arkindex est une plateforme web de traitement de document complète et partiellement open-source qui inclut l’OCR et l’HTR, l’analyse de la mise en page du document, son classement et l’extraction d’entités nommées (l’annotation automatique). Les images stockées au format IIIF peuvent être aisément partagées. La plateforme rend possible l’import de projets Transkribus.
Arkindex est publiée en deux éditions:
- Community Edition is the open-source version, you can use it freely for all your open-source projects. Disponible sous forme d’image Docker, avec Node et Python.
- Enterprise Edition is available to our customers, with extended support, help and training available. It can scale to hundreds of GPU-enabled servers, and even support super-computers through slurm.
Voir aussi :
- Plateforme Arkindex de démonstration : Lien
- Documentation utilisateur d’Arkindex : Lien
- Teklia, Automatic Document Processing with AI : Lien
- Documentation d’Arkindex : Lien
- Biblissima, Teklia : Lien
- Arkindex pricing page

2.10 Recogito
Recogito est une plateforme d’annotation des textes possiblement grecs et latin mentionnant des toponymes possibles à géolocaliser (textes du type répertoire toponymique, périples et guides antiques, cartes médiévales). Elle est développée par le réseau Pelagios, soutenu de 2011 à 2019 par la Fondation Andrew W Mellon. Le code source est ouvert mais les développements et la maintenance sont stoppés deouis la version 3 de 2019. Le réseau reste cependant actif et la plateforme trouve des débouchés, dans plusieurs projets scientifiques en divers lieux européens et américains, à la British Library et en France à l’Ecole Française d’Athènes. Développée par l’équipe de Rainer Simon (Autriche), Recogito autorise l’import de collections d’images IIIF par l’intermédiaire de leur manifeste tout aussi bien que l’import de textes au format TEI. Les formats d’export satisfont une variété d’usages et de cas. Ils incluent CSV, GeoJSON, TEI, le format Web Annotation du W3C.
- Code source Recogito 3 (2019) : Lien
2.11 Calfa Vision
Calfa est initialement un projet de traitement automatique de la langue arménienne classique, développé en partenariat avec la BULAC (Bibliothèque universitaire des langues et civilisations) et porté par une association à but non lucratif, Calfa, fondée par Chahan Vidal-Gorène, ancien étudiant de l’Inalco.
L’association s’attache à la conception et au développement d’outils et de ressources pour l’étude de l’arménien, développant par exemple des bases de données lexicales (des dictionnaires multilingues, étymologiques, de synonymes, consultables gratuitement sur le site calfa.fr), de lemmatiseur, d’analyseur de texte et de reconnaissance de caractères. Le projet d’un moteur de reconnaissance de caractères pour les manuscrits arméniens grâce à une intelligence artificielle (Deep Learning), a favorisé le rapprochement avec la BULAC, dépositaire de riches fonds dans le domaine arménien.
Solutions numériques pour langues orientales. Mettre les nouvelles technologies au service des langues orientales. Pour l’usage des organisations, des entreprises du numérique, ou des professionnels du patrimoine. Découvrez notre moteur de lemmatisation, de POS-tagging et d’analyse morphologique en contexte pour l’arménien classique et oriental, le géorgien ancien, le syriaque et le grec ancien.
- Dictionnaire français, anglais, arménien, 65 000 entrées : https://dictionary.calfa.fr/
- Calfa OCR, dédié aux langues orientales et aux manuscrits : https://calfa.fr/ocr
- Analyse de texte automatique pour les langues orientales : https://calfa.fr/textanalysis
- Calfa Vision, un outil de labellisation gratuit en ligne : https://vision.calfa.fr/
2.12 Autres plateformes web et outils de transcription et d’annotation
2.12.1 Transcription
- Enrich Europeana (PHP, Java, JavaScript). This project developed a crowdsourcing platform that enables citizens to transcribe and enrich cultural heritage material from Europeana collections and national aggregator portals : Lien
- pyBossa (Python) : plateforme open source développée par scifabric. Elle s’inspire de la plateforme participative Bossa. Les tâches rendues possibles par collaboration incluent la classification des images, la transcription, la localisation de l’information, le comptage dans le cadre de projets scientifiques ou citoyens. Une plateforme peut héberger un ou plusieurs projets, susceptibles d’assigner des tâches à des groupes de volontaires : Lien
2.12.2 Annotation
- Semantic Mediawiki est une extension de MediaWiki – l’application wiki bien connue sur laquelle repose Wikipédia – qui permet de rechercher, organiser, baliser, naviguer, évaluer et partager le contenu d’un wiki. Alors que les wikis traditionnels ne peuvent contenir que du texte ne pouvant être ni compris, ni évalué par les ordinateurs, SMW ajoute des annotations sémantiques permettant à un wiki de fonctionner comme une base de données collaborative.
- Taguette est un logiciel dédié à l’annotation colaborative de contenus textuels. Ce logiciel gratuit fonctionne sur tous les systèmes d’exploitation. C’est cependant installé sur serveur que ses fonctionnalités se montrent les plus intéressantes. Un projet peut être créé. Des fichiers aux formats PDF, Documents Word (.docx), texte (.txt), HTML, EPUB, MOBI, Open Documents (.odt) sont ensuite importés dans la plateforme. Les documents peuvent être annotés, éventuellement de manière collaborative. Des utilisateurs dont les droits sont finement gérés sont invités à participer. Une liste de mots clés spécifiques au projet sert à l’annotation. Codé en python. Le code source est visible sur Gitlab. Usage possible pour l’analyse qualitative des données sociales : https://www.taguette.org/
- INCEpTION : Developpée par des chercheurs de l’UKP Lab à TU Darmstadt, une plateforme java propose l’annotation sémantique basée sur un système intelligent de gestion des connaissances. La création d’un processus requiert un apprentissage préalable du vocabulaire et des techniques d’annotation de projet (for example terms like Layer or Tagset) : Lien
- HTR-United : Mutualisons la vérité de terrain !, 2021, Alix Chagué, Thibault Clérice, Laurent Romary : Lien
- EHESS, S’écrire au XIXe siècle. Une correspondance familiale, avec Semantic MediaWiki : Lien
3. Plateformes et composantes logicielles open source
Certaines plateformes de transcription, de même que leurs composantes, se trouvent développées en opensource, susceptibles de servir à la transcription des documents de philologie, comme les incunables, les manuscrits médiévaux, les textes en écritures antiques. Le workflow complet peut alors être paramétré, ce qui nécessite alors quelques connaissances techniques.
- Comparison of optical character recognition software. Wikipedia : Lien
- Handwriting recognition. Wikipedia : Lien
- La reconnaissance automatique d’écriture à l’épreuve des langues peu dotées, par Chahan Vidal-Gorène, 2020 : Lien
- Reconnaissance optique des caractères et des écritures manuscrites, Projet E-NDP, (Transkribus, eScriptorium, Kraken) 2021, Jean-Baptiste Camps, Nicolas Perreaux : Lien
3.1 L’HTR avec Kraken
Le logiciel d’HTR open-source Kraken est initiallement développé à partir d’OCRopus par Benjamin Kiessling, alors membre de l’équipe ALMAnaCH (INRIA Paris), en collaboration avec l’Université de Leipzig. Kiessling intègre l’EPHE (École Pratique des Hautes Études) en 2021, après soutenance de sa thèse sur la transcription de l’arabe imprimé. Sa thèse est dirigée par Peter Stokes (UMR 8546 Archéologie et philologie d’Orient et d’Occident). Contairement à OCRopus, qui rassemble différents outils d’analyse de documents, Kraken est un logiciel « clés-en-main » qui prend en charge le workflow complet : binarisation des images, segmentation, entrainement d’un modèle d’OCR/HTR et reconnaissance d’écriture avec le modèle entrainé. D’abord développé pour les documents imprimés (en caractères latins ou autres, par exemple en arabe), Kraken donne de bons résultats sur des manuscrits, latins et hébreux médiévaux notamment. Comme Transkribus, Kraken fonctionne grâce à des réseaux de neurones récurrents. Contrairement à Transkribus, il est entièrement open-source, y compris les modèles d’OCR/HTR fournis.
Le logiciel est une bibliothèque logicielle écrite en python dont la première version date de 2013. Les fonctions concernent l’OCR et l’HTR pour un fonctionnement soit en ligne de commande, soit couplé au logiciel personnel Aletheia, soit à la plateforme eScriptorium. Deux étapes menant à la reconnaissance peuvent être entrainés à l’aide d’un même modèle. 1/ L’étape de segmentation. Celle-ci consiste à trouver sur l’image d’une page les régions écrites et les lignes imaginaires guidant l’écriture. 2/ L’étape de transcription, concerne le texte contenu sur chaque ligne ainsi parcourue. La phase d’entraînement du modèle peut être réalisée en fournissant au système des fichiers aux formats PAGE ou ALTO (XML). Les modèles de reconnaissance peuvent être entrainés sur une grande variété de mises en pages, de textes, et de langues, notamment non latines. Des langues rares : araméen ancien, japonais médiéval, ougaritique, vieux javanais sont couvertes. L’export des transcriptions en TEI est possible.
- kraken.re, site officiel : http://kraken.re
- The Kraken source code: github.com/mittagessen/kraken
- Modèles entraînés sur GitHub : github.com/mittagessen/kraken-models
- Modèles entraînés sur Zenodo : zenodo.org/communities/ocr_models/
- Peter A. Stokes, CV : Lien
- Répertoire des Notaires parisiens Segmentation automatique et reconnaissance d’écriture : Rapport exploratoire, 2018, Marie-Laurence Bonhomme : Lien
3.2 L’HTR avec OCR4all
Lancé par l’université bavaroise de Wurtzbourg, sous la direction de Christian Reul, Frank Puppe, Christoph Wick et Uwe Springmann notamment, OCR4all est une solution opensource de bout en bout. Elle se montre particulièrement adaptée à l’OCRisation des documents imprimés anciens, en particulier les incunables (imprimés antérieurs à 1501, dont les typographies ne sont pas standardisées) en latin et écriture gothique, de même que les manuscrits médiévaux. Alors que les polices de caractères modernes peuvent être reconnues avec une excellente précision par des modèles multi ou polyvalents, les incunables et manuscrits médiévaux requièrent en général un entrainement de modèles spécifique de chaque livre pour atteindre des fréquences d’erreurs inférieures à 5%. Comme Kraken, OCR4all couvre toutes les étapes d’un workflow d’OCR à savoir le prétraitement des images, l’analyse de la mise en page (la segmentation des régions dans une page contenant les zones écrites), l’entraînement de modèles, la reconnaissance de caractère appliquée à des zones textuelles.
- OCR4all—An Open-Source Tool Providing a (Semi-)Automatic OCR Workflow for Historical Printings, 2019, Christian Reul, Dennis Christ, Alexander Hartelt, Nico Balbach, Maximilian Wehner, Uwe Springmann, Christoph Wick, Christine Grundig, Andreas Büttner, Frank Puppe : Lien
- Modern Tool for Old Texts, par By Robert Emmerich, 2019
- Zentrum für Philologie und Digitalität « Kallimachos » (ZPD) : Lien
- https://github.com/OCR4all
3.3 PRHLT / TRAN Skriptorium
Le centre de recherche PRHLT (Pattern Recognition and Human Language Technology) a mis au point un logiciel dédié à la transcription automatique doublé d’un moteur de recherche. Des démonstrations sur plusieurs corpus de grande dimension sont accessibles. Les corpus incluent des manuscrits médiévaux, les archives de Bentham et d’autres ensembles manuscrits en espagnol de l’époque médiévale.
- Bentham Papers Free Text Search (193 boîtes, 90 000 pages) : Lien
- Himanis Chancery, Trésor des chartes (199 manuscrits, 82 000 pages) : Lien
- Teatro del siglo de oro español (328 manuscripts, 41 000 pages) : Lien
- Carabela Free Text Search in Images (328 dossiers) : Lien
3.4 Histograph
Graph-based exploration and crowd-based indexation for multimedia collections. HistoGraph treats multimedia collections as networks. The underlying assumption is simple: if two people are mentioned together in a document, we assume that they may have something to do with each other. Whether or not such a relationship is interesting is in the eye of the beholder. Co-occurrence networks become huge and unwieldy very quickly, which forces us to filter them based on another simple assumption: the more often entities co-occur, the more likely it is that they have a meaningful relationship with each other. We combine these two assumptions with mathematical models (co-occurrence frequencies weighted by tf-idf specificity and Jaccard distances) which allow us to rank the list of co-occurrences. This tells us who appears with whom and in which documents. HistoGraph combines tools like YAGO-AIDA for the automatic detection and disambiguation of named entities – people, places, institutions and dates – with crowd-based annotations.
- Check out our demo on European Integration,
- or collaborate with us on github
3.5 Visionneuses javascript
Le format International Image Interoperability Framework (IIIF) (prononcer Triple [i] [f] / trois [i] [f]) s’est imposé ces dernières années pour les possibilités qu’il apporte en matière de visionage des images en haute résolution, éventuellement localisées sur plusieurs serveurs. Le paragraphe 5.3 évoque plus extensivement la communauté et le protocole.
- EZView (Jquery) : Lien
- Archipoles : Archives polaires françaises. Un document visionné sur Archipoles (Jquery, viewer) : Lien
- Visionneuses compatibles IIIF.
3.6 L’annotation de textes et d’images avec RecogitoJS
- RecogitoJS : Une bibliothèque JavaScript d’annotation des textes. RecogitoJS peut servir à ajouter des fonctionnalités d’annotation sur une page web ou comme composante d’une plateforme indépendante dédiée à l’annotation : Lien
- Annatorious : Bibliothèque javascript pour l’annotation d’images : Lien
4. Quelques formats du domaine
Des efforts ont porté ces dernières années sur la normalisation des processus. Plusieurs formats d’OCR, le format TEI de transcription manuelle, de même que le format IIIF dédié aux images haute résolution sont ici brièvement présentés.
4.1 Formats d’OCR
Les formats ALTO, PAGE et hOCR permettent de normaliser le positionnement des textes reconnus relativement à la couche image.
4.1.1 ALTO (XML)
Le format ALTO (Analyzed Layout and Text Object) résulte du projet METAe financé par le programme IST de la CEE de 2000 à 2003, coordonné par l’Université d’Innsbruck et impliquant 14 bibliothèques de 7 pays européens et des Etats-Unis. Ce format XML est actuellement conjointement maintenu par la Bibliothèque du Congrès et la Bibliothèque nationale de France. ALTO est un des formats les plus couramment utilisés par les professionnels de l’OCRisation, notamment pour la presse du XVIIIème au XXème siècle. La mise en page (marges, espace imprimé, composition en bloc des textes) est détectée. Le format indique toutes les coordonnées dans l’image des contenus (textes, illustrations, graphiques) et permet de superposer dans les applications dédiées l’image et du texte. La surbrillance des mots recherchés lors d’une recherche devient alors possible. Le format ALTO est pris en compte par Tesseract, Abby, Kraken.
- ALTO (XML) : Lien
- ALTO Technical Metadata for Layout and Text Objects? LoC : Lien
- Techniques et formats de conversion en mode texte, BnF : Lien
- METAe, The Metadata Engine Project (Archive) : Lien
- Aspyre GT : Outil de conversion d’Alto-2 (Transkribus) à Alto-4 (eScriptorium/Kraken)
- Code Python : https://gitlab.inria.fr/dh-projects/aspyre-gt
4.1.2 PAGE (XML)
Le format PAGE (Page Analysis and Ground-truth Elements) est développé à partir de 2009 par le Pattern Recognition & Image Analysis Lab (PRIMA) de l’Université Salford à Manchester. Il s’agit d’un format de description de l’image d’un document dont les fonctions se montrent voisines de celles du format ALTO ou de hOCR. Ce schéma XML est conçu pour prendre en compte les caractéristiques des images nécessaires à la réalisation de l’OCR et de l’HTR.
PAGE prend en compte des caractéristiques comme la largeur des bordures, les distorsions géométriques et leur correction, la binarisation. Les données prises en compte concernent le prétraitement de l’image, l’analyse de la mise en page et la caractérisation des mots (segmentation), la reconnaissance optique. La validité du format est testée sur des données du type « vérité de terrain » (ground-truth) provenant de jeux d’images de documents contemporains et d’intérêt historique, et lors de compétitions professionnnelles organisées par l’ICDAR (International Conference on Document Analysis and Recognition). Le format est notamment pris en compte par Kraken.
- PAGE-XML, enrepôt GitHub : Lien
- The PAGE (Page Analysis and Ground-Truth Elements) Format Framework, 2010, S. Pletschacher, A. Antonacopoulos : Lien
4.1.3 hOCR
Le microformat hOCR propose l’encodage du texte OCRisé dans des balises HTML normalisées. hOCR est un format ouvert plus moderne qu’ALTO, d’usage possible avec Tesseract. Il permet d’encoder le texte retrouvé, le style typographique, la langue, la mise en page du texte. Des métriques de confiance de la reconnaissance et d’autres informations sont possibles à noter dans un formalisme au choix XML, HTML ou XHTML. Ces informations sont stockées sous forme d’attributs et de valeurs dans des balises comme <p> pour un paragraphe ou bien <span> d’un document HTML. Des outils logiciels écrits en Python ou en C++ rendent possible la conversion d’un document hOCR en PDF cherchable. Le format est notamment utilisé pour les bibliothèques numériques de Google.
- T. M. Breuel and U. Kaiserslautern, « The hOCR Microformat for OCR Workflow and Results, » Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), 2007, pp. 1063-1067, doi: 10.1109/ICDAR.2007.4377078
- hOCR – OCR Workflow and Output embedded in HTML, 2020, Konstantin Beuerer, Thomas Breuel : https://kba.github.io/hocr-spec/
4.2 Le format TEI de saisie des transcriptions
Créé en 1987 tout d’abord en SGML, puis à partir de 2001 formalisée dans le langage de balisage XML, la TEI (Text Encoding Initiative) permet d’encoder des textes sous forme électronique. Ce format est fréquemment utilisé pour transcoder des textes dans le domaine de la littérature. Le caractère strictement défini de XML permet également de se servir du format pour éditer de manière professionnelle des revues et groupes de revue.
De manière première, TEI vise à rendre compte de l’organisation logique d’un texte et à reconstituer son modèle hiérarchique (en divisions, chapitres, sous-chapitres, sections, et jusqu’à ses parties les plus complexes telles que citations, vers, noms propres mentionnés dans le texte, soulignements, passage à la ligne, annotations, etc.). Une architecture modulaire permet de sélectionner les éléments répondant à divers critères. Parmi les types particulier de textes : poésie, pièces de théâtre, dictionnaires, corpus linguistiques, manuscrits, critiques textuelles, transcriptions de discours oraux.
Dérivé du format XML et tirant parti de XSLT, le format TEI permet l’encodage de la structure du texte, de sa transcription, l’intégration des images, l’annotation des entités nommées, l’annotation scientifique du contenu, les ajouts, suppressions, corrections dans les éditions. Des caractéristiques physiques et intellectuelles se trouvent simultanément codés.
Des tutoriels accompagnés d’exemples donnent des indications sur les possibilités du format en matière de transcription des sources primaires du type correspondance, manuscrit ou document imprimé. Possibilité d’enrichir en annotant (annotation physique, linguistique, sémantique). En matière d’édition à l’aide de TEI, il est possible de citer les logiciels Lodel, eXtensible Text Framework (XTF) de l’Université de Californie qui motorise « Les Bibliothèques Virtuelles Humanistes » à Tours, ainsi que TEI Publisher.
Celle-ci fonctionne de manière fédérée avec un entrepôt github. Une extension de l’éditeur de code Visual Studio offre d’intéressantes possibilités pour l’édition. TEI Publisher intègre la cartographie et supporte pour les images le format IIIF. L’initiative est supportée en partie par la société suisse à but non lucratif « e-editiones.org ». Un exemple d’édition emblématique en trilingue anglais, néerlandais et français est celui de la correspondance de Vincent Van Gogh, réalisée en 2018 sous TEI Publisher à partir des travaux précédents du Musée Van Gogh et de ses chercheurs.
- Structuration des données et des documents : balisage XML. Introduction à la TEI. J.B. Camps, 2015 : Lien
- What is the Text Encoding Initiative ? The TEI cornucopia, part two, 2014, Lou Burnard, https://doi.org/10.4000/books.oep.1340 : Lien
- TEI by Example, Module 6: Primary Sources : Lien
- La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, 1996, Burnard, Lou, Sperberg-McQueen, C.M. : Lien
- Réaliser une édition électronique de mon corpus de texte xml et la TEI, 2021, Victoria Le Fourner, Florence Perret : Lien
- The eXtensible Text Framework (XTF), plateforme pour l’édition de revues en XML, Université de Californie : Lien
- CHAMP FLEURY, 1529, Les Bibliothèques Virtuelles Humanistes : Lien
- Éditions en ligne de l’École des chartes (Élec) : Lien
- TEI Publisher. The Instant Publishing Toolbox, requires the eXist XML database to operate : Lien
- TEI Publisher Extension for Visual Studio Code : Lien
- https://www.e-editiones.org/
- Van Gogh Letters : https://teipublisher.com/exist/apps/vangogh/letters.html, https://vangoghletters.org/vg/
4.3 Le format IIIF : de l’image en haute résolution, à la visionneuse, et aux annotations
Le format d’image en haute résolution IIIF (International Image Interoperability Framework, prononcer ‘trois-I-eff’ / ‘triple-aï-eff’) résulte de travaux menés à partir de 2011 par l’Université de Stanford, l’Université d’Oxford, la British Library ainsi que la Bibliothèque nationale de France. La BnF en tant que participant à la communauté IIIF, propose l’accès à l’intégralité des images qui composent sa bibliothèque numérique Gallica, ce qui représente plus de 10 millions de documents et plus de 100 millions d’images. De nombreuses bibliothèques du monde de la littérature, des archives et des musées prennent part au mouvement (BnF, INHA, Biblissima, Corpus Louvre, FranceArchives, Europeana, Bodleian, Cambridge University, Digital Vatican, Harvard Art Museums, Internet Archive, J. Paul Getty Museum, Qatar Digital Library, Stanford, UCLA, Yale, etc).
IIIF définit un ensemble de spécifications visant à standardiser les échanges d’images haute résolution ou les portions d’images haute résolution. Il permet de consulter, manipuler ou annoter localement des images présentes sur des entrepôts distants. Le visionnage simultané de plusieurs pages d’un même document, ou d’images localisées sur des serveurs serveurs différents devient possible. On peut ainsi envisager de comparer plusieurs versions d’une même rédaction manuscrite, plusieurs éditions d’un même texte, que celui-ci soit manuscrit ou imprimé, plusieurs versions d’une même photographie, d’un même dessein ou d’une peinture.
Le format intéresse donc tout particulièrement les bibliothèques, les archives numériques nationales et régionales, les musées et centres de recherche en histoire. Tout document IIIF est identifié dans son entrepôt d’origine par un document électronique appelé « manifeste IIIF ». Ce fichier au format JSON-LD est signalé généralement par son URL dans les métadonnées. Suite à une requête posée par un utilisateur dans une visionneuse compatible, des images stockées sur différents serveurs deviennent affichées côte à côte et peuvent ainsi être comparées.
Dans l’exemple suivant, nous nous servons de la visionneuse de démonstration Mirador localisée à l’URL « https://mirador-dev.netlify.app/__tests__/integration/mirador/« . Les pages affichées par défaut sont effacées. Deux ressources sont ajoutées à l’aide du bouton bleu à gauche « Add ressource ». Les manifestes de deux documents sont ajoutés. En premier lieu, celui d’un manuscrit dit de Saint-Omer, numérisé et localisé sur l’entrepôt de l’IRHT (Institut de Recherche et d’Histoire des Textes, Campus Condorcet). En deuxième lieu un livre localisé à la BnF. Deux pages différentes du manuscrit de Saint-Omer sont ouvertes.

Le bouton « sandwich » localisé à la gauche du titre d’une image IIIF donne accès aux métadonnées, ainsi qu’à l’URL du manifeste. Suivent ensuite la licence, l’index des pages, ainsi que les éventuelles annotations. Celles-ci peuvent être éventuellement mémorisées sur un serveur indépendant de l’image. On note parmi les possibilités techniques d’annotation mutualisée annotot, Elucidate, SimpleAnnotationServer.

Proof Of Concept : Ella Fitzgerald en concert en 1963. 15 photographies par Roger Pic (IIIF BNF), Visionneuse Mirador (Project Mirador, Stanford), 3 annotations localisées sur SimpleAnnotationServer (Glen Robson, Welsh Book of Remembrance project). Image IIIF BnF. Accédez aux annotations personnalisées sur les photos 1 et 2, en cliquant sur le bouton « sandwich » de la visionneuse et sur « Annotations ». A charge au serveur d’annotation de Glen Robson, au serveur d’image de la BnF et au serveurs de Mirador de servir leurs données. (non fonctionnel actuellement, suite au changement sur les droits des photos à la BnF)

Des bibliothèques, des archives ou des musées proposent ainsi à leurs visiteurs une expérience utilisateur ludique et enrichissante dans laquelle des documents et oeuvres complexes au format IIIF sont commentés par un(e) spécialiste. Papyrus Cadet. Livre des Morts de Padiamonnebnésouttaouy. Egyptien 19, commenté par Vanessa Desclaux, à l’aide de Storiiies, sur Cogapp : Lien

- IIIF – How it Works : Lien
- IIIF – How to use IIIF resources and image viewers : Lien
- IIIF Workshop, University of Pittsburgh, 2019, Jeffrey C. Witt : Lien
- IIIF Experiments with Gallica content, 2021, Jean-Philippe Moreux : Lien
- Training IIIF, IIIF Online workshop, Annotation Stores : Lien
- Open in IIIF Viewer. A Firefox/Chrome extension to open IIIF manifest link in your favorite IIIF viewer : Lien
- Local IIIF Annotation server. Creating Annotations with Mirador : Lien
- Niqui O’Neill. Digital Technologies Development Librarian at NCSU : Lien
- Les bibliothèques numériques et le standard IIIF, INHA, 2019, Johann Gillium : Lien
- Démos Biblissima. Ce site est dédié à la mise en ligne de démos autour de l’interopérabilité des données de Biblissima (images et métadonnées) : Lien
- IIIF, un outil pour visualiser les archives numérisées, FranceArchives, 2023 : Lien
- Interopérabilité des images : IIIF, FranceArchives, 2023 : Lien
- IIIF pour les musées de France, Ministère de la Culture, 2023 : Lien
- Visionneuse Mirador déployée sur Gallica : https://gallica.bnf.fr/view3if/ga/ark:/12148/btv1b8304462j
- Manifeste de l’image sur Gallica : https://gallica.bnf.fr/iiif/ark:/12148/btv1b8304462j/manifest.json
- Visionneuse chez project Mirador, avec la même image Gallica : https://projectmirador.org/embed/?iiif-content=https://gallica.bnf.fr/iiif/ark:/12148/btv1b8304462j/manifest.json
- Visionneuse chez Universal Viewer, avec la même image Gallica : https://universalviewer.io/uv.html?manifest=https://gallica.bnf.fr/iiif/ark:/12148/btv1b8304462j/manifest.json
- SAS – Simple Annotation Server (Glen Robson, Welsh Book of Remembrance project). Un serveur dédié au stackage et au partage des annotations réalisées sur des images au format IIIF : Lien
- Conférence en ligne – Les trésors de la BnF en direct: le Livre des Morts égyptien de Padiamonnebnésouttawy, 2020, Vanessa Desclaux : Lien
- Archives et manuscrits, Egyptien 1-19. Livre des Morts de Padiamonnebnesouttaouy. Scène du jugement et de la pesée du coeur (chapitre 125) : https://archivesetmanuscrits.bnf.fr/ark:/12148/cc8311r/ca118
4.4 Web Annotation Protocol
- Web annotation, sur Wikipedia, en anglais : Lien