Outils pour la transcription, l’OCR, l’HTR et l’annotation sémantique des textes

La transcription automatique et approximée ou bien exacte des textes intéresse tout d’abord les particuliers. Des scanneurs, smartphones et autres dispositifs permettent de créer des images de textes ou bien des PDFs reliant entre elles plusieurs images. Comment à partir de lourds documents chargés de pixels obtenir des textes numériques légers, dans lesquels la recherche est possible ? Les documents susceptibles d’être OCRisés sont des articles de presse ou de revues, des livres, rapports, papiers divers, affichages d’écrans. L’OCR (Optical Character Recognition / reconnaissance optique de caractères) fonctionne à plus de 99% sur les images en 300 dpi des imprimés modernes.

Dans le cas des papiers d’archives, des technologies de reconnaissance de l’écriture appelées HTR (Handwritten Text Recognition) ou parfois REM (Reconnaissance de l’Écriture Manuscrite) peuvent être mises en œuvre. Le choix de modèles adaptés à la mise en page, au sens d’écriture, à l’alphabet, à la langue transcrite s’avère nécessaire.

Transcrire intéresse aussi les professionnels des bibliothèques, des archives, des musées de même que les chercheurs et enseignants. Lorsque les textes se montrent généraux, concernent des personnalités modernes ou véhiculent des valeurs partagées, les transcriptions de manuscrits se montrent possiblement participatives. Des événements peuvent être organisés autours de projets emblématiques et la participation de volontaires est attendue. Des règles de transcription doivent alors être formalisées et suivies par des acteurs dont les rôles peuvent être ceux de transcripteur, relecteur, validateur. Le traitement préalable par HTR facilite grandement ces mobilisations. Le nombre de pages à traiter de même que le nombre de participants (de un à plusieurs dizaines) entrent en jeu. Des barres de progression et autres outils visuels améliorent l’ergonomie des interfaces.

Un certain nombre de textes ne se prêtent pas à une approche participative aidé du grand-public. Les historiens, linguistes et spécialistes des textes anciens se montrent à la pointe de l’innovation pour des études de littérature, de linguistique, d’histoire antique, du Moyen Âge et de la Renaissance, d’histoire des sciences et de l’art, de sociologie, d’économie ou de droit. Les transcriptions et annotations sémantiques de manuscrits antiques ou médiévaux, de documents écrits dans des langues et typographies anciennes, dont les contenus présentent des intérêts historiques, juridiques, géographique et autres nécessitent des connaissances particulières en paléographie, langue ou jargon disciplinaire.

A coté de la transcription, l’indexation inclut le classement à l’aide d’un code (CDU, Dewey par exemple) et l’ajout de mots clés significatifs du contenu dans son ensemble. L’annotation sémantique concerne le corps du texte ou bien des portions d’une image (gravure, peinture, photographie). Des étiquettes correspondant à un mot ou groupe de mot sont ajoutées pour désigner par exemple un nom de personne, un lieu (toponyme, région, bâtiment), une date, un événement, un artefact, un terme scientifique. Il devient ensuite possible de caractériser dans des index des éléments tels que des acteurs, des lieux, des dates, des événements. Seuls des groupes de chercheurs éventuellement aidés d’étudiants et d’outils adaptés peuvent alors transcrire, indexer et annoter.

De plus, certains documents nécessitent une numérisation en haute résolution et le tuilage dans le but de visionner de manière fluide les zones à transcrire et annoter. Certains manuscrits peuvent aussi contenir des équations mathématiques, des tableaux de données, des graphes ou bien des motifs graphiques dont la transcription ou l’annotation sont souhaités. Le format IIIF de visualisation et d’échange des données et métadonnées se montre dans ces cas pertinent.

Un mémo non exhaustif sur la question de l’OCR, de l’HTR, de la transcription et de l’annotation est ici proposé. Une attention particulière est portée aux formats d’échange des transcriptions et annotations, aux capacités techniques des logiciels, à l’organisation humaine des activités, et aux signatures laissées par les transcripteurs sur des textes et images qui de quasiment oubliés et ainsi parcourus de nouveau reprennent vie en quelque sorte.

  1. Logiciels et services personnels
    • 1.1 Outils de capture avec OCR
      • 1.1.1 Capture sous Windows
      • 1.1.2 Extensions de navigateurs
      • 1.1.3 Services en ligne gratuits
      • 1.1.4 Mathpix
    • 1.2 Logiciels de bureau
      • 1.2.1 Éditeurs de PDF traditionnels
      • 1.2.2 Zotero plateforme de transcription
      • 1.2.3 Tropy
      • 1.2.4 Transkribus
  2. Services et plateformes du web
    • 2.1 OCR avec Sharedocs (Huma-Num)
    • 2.2 FromThePage
    • 2.3 Transkribus Lite
    • 2.4 Omeka
      • 2.4.1 Omeka Classic
      • 2.4.2 Omeka S
    • 2.5 Transcription et Annotation de Corpus Textuels (TACT)
    • 2.6 eScriptorium
    • 2.7 Arkindex
    • 2.8 Recogito
    • 2.9 Autres plateformes et outils
  3. Projets grand public intégrant l’OCR ou l’HTR
    • 3.1 Wikisource
    • 3.2 Transcribe Bentham
    • 3.3 Zooniverse
    • 3.4 Autres projets participatifs
  4. Composantes logicielles open source
    • 4.1 L’OCR avec Tesseract
    • 4.2 L’HTR avec Kraken
    • 4.3 L’HTR avec OCR4all
    • 4.5 Serveurs d’images
    • Histograph
    • 4.6 Visionneuses javascript
    • 4.7 PRHLT / TRAN Skriptorium
  5. Quelques formats du domaine
    • 5.1 Formats de mise en page des textes OCRisés
    • 5.2 Format TEI de balisage de la transcription
    • 5.3 Format IIIF d’échange des images et annotations

1. Logiciels et services personnels

Des contenus textuels peuvent être capturés sous forme d’images de texte (JPG, PNG, BMP, TIFF et autres) ou bien de PDF (Portable Document Format) constitués de parties nativement textuelles et d’images reliés en un fichier dont l’impression donne un rendu indépendant du type d’ordinateur ou d’imprimante. Des outils personnels standards sont tout d’abord listés.

Un PDF OCRisé et interrogeable : Lien

1.1 Outils de capture avec OCR

Des logiciels et modules intégrés pour certains au système d’exploitation ou aux navigateurs permettent la capture de portions d’écrans (snip en anglais), leur conversion au format image et la reconnaissance des caractères imprimés. Certains permettent la reconnaissance de l’écriture manuscrite.

  • Optical character recognition (OCR), How OCR works, 2021, Chris Woodford : Lien
  • Comment faire lire des gribouillis à mon ordinateur ?, 2021, Alix Chagué : Lien

1.1.1 Capture sous Windows

Sous Windows, une manière aisée de capturer une portion d’écran (faire un snip) et de l’annoter peut consister à se servir du raccourci “Windows + Shift + S” pour accéder à l’outil “capture d’écran et croquis”. Un autre outil intégré existe pour l’OCR. On y accède depuis le moteur de recherche avec “Loupe: Taper ici pour chercher”. Une fois la capture faite, une recherche d’image similaire est lancée dans Bing avec Microsoft Edge. L’OCR est fourni en réponse. Une autre solution consiste à se servir de OneNote, l’application de prise de note. On clique sur une image et on sélectionne “Copier le texte dans l’image”.

Outil de capture de portions d’images à OCRiser sous Windows
Capture et OCR dans Bing avec Windows

1.1.2 Extensions des navigateurs

Une option alternative pour les OCR de portions de textes consiste à installer une extension de navigateur. On dispose sur Firefox et Chrome d’une variété de possibilités pour réaliser des captures de portions d’écran et OCRiser, ou bien travailler à partir de fichiers image ou PDF.

  • OCR Image Reader, Simple powerful OCR without server iteration : Lien
  • Image Reader (OCR) : Lien
  • Copyfish: Copy, paste and translate text from any image, video or PDF : Lien

1.1.3 Services en ligne gratuits

De nombreux sites proposent de téléverser images et PDF en vue d’effectuer gratuitement l’OCR. Quelques unes des possibilités :

  • Windows, Text Recognition : Lien
  • Soda PDF, OCR gratuit en ligne : Lien
  • Docsumo, Free Online OCR Scanner : Lien
  • Drive de Google. Cliquez avec le bouton droit de la souris sur le fichier souhaité, cliquez sur “Ouvrir avec > Google Docs”. L’OCR et l’HTR se montrent fonctionnels : Lien
OCR sur texte imprimé avec Soda PDF en ligne : Lien

1.1.4 Mathpix

Fondée en 2016 par Nicolas Jimenez et Kaitlin Cunningham, la société Mathpix est spécialisée dans l’édition et l’assistance à l’édition de documents contenant des formules mathématiques, des molécules chimiques, des tableaux de données. Elle propose à un public universitaire des outils gratuits (dans la limite de 10 captures et de 20 pages PDF par mois) qui permettent la reconnaissance optique des imprimés et manuscrits, des formules, molécules et tableaux écrits. Les équations mathématiques saisies manuellement sont reconnues et peuvent être résolues de manière automatique avec indication des étapes et tracé du graphe.

Après inscription sur le site, des applications pour MacOS, Windows, Linux, iOS et Android sont téléchargées et installées. Elles permettent la réalisation de captures d’écran sous forme de photographie d’une portion de document, notamment à l’aide d’un smartphone. La reconnaissance optique permet en quelques seconde de reconnaitre le texte, de transformer l’image d’une équation en sa notation en différents formats. Une synchronisation entre application et site web rend les captures réutilisables depuis une variété de machines. Des fichiers complets peuvent également être OCRisés.

Un site web supplémentaire nommé Snip Notes est proposé. Il permet l’édition en markdown “Mathpix Markdown” d’articles scientifiques susceptibles d’intégrer les captures obtenues précédemment. Des documents scientifiques de qualité professionnelle peuvent être écrits. Les textes peuvent ensuite être exporté aux formats PDF, Word, LaTeX ou HTML. Mathpix édite de plus la revue numérique open access “Spectra”. Ce journal non examiné par les pairs et en langue anglaise publie des articles originaux en mathématiques, statistique, physique, chimie, ingénierie. D’autres logiciels tels que Photomath ou bien InftyReader incluent des fonctionnalités de reconnaissance des équations et s’adressent plutôt aux lycéens et aux malvoyants.

  • Mathpix, PitchBook, 2022 : Lien
  • Mathpix, Convert images and PDFs to LaTeX, DOCX, Overleaf, Markdown, Excel, ChemDraw and more : Lien
  • Mathpix Snip, User Guide : Lien
  • Mathpix Snip, The Solver : Lien
  • Spectra, revue en ligne éditée : Lien
  • Photomath, une application pour smartphone sortie en 2014. Une équation mathématique prise en photo est résolue automatiquement : Lien
  • InftyReader, is an Optical Character Recognition (OCR) application that recognizes and translates scientific documents (including math symbols) into LaTeX, MathML and XHTML : Lien
Reconnaissance d’un texte à partir d’une image (mais non des fautes d’orthographe : je résous…)
Saisie depuis le pad de l’application (crayon, Snip Create). Différentes notations de la même équation
Résolution de l’équation
Essai d’OCR d’un tapuscrit, les retours à la ligne sont supprimés
Snip Notes, le service d’édition en ligne de textes scientifiques
Essai de numérisation d’une portion de tableau (Le Médiéviste et l’Ordinateur, 1979 : Lien)

1.2 Logiciels de bureau

Plusieurs logiciels personnels pour Windows et Mac essentiellement facilitent l’édition des PDF. Les tables des matières et les index (géographiques, des auteurs, des personnes citées, etc.) peuvent être reconstitués.

1.2.1 Éditeurs de PDF traditionnels

De nombreuses sociétés proposent des solutions payantes, souvent disponibles en version d’essai gratuite. Ainsi Wondershare propose le téléchargement de la version d’essai de son logiciel PDFelement Pro. L’OCR doit être installé comme outil supplémentaire au logiciel de base. La dernière version du programme rend possible le traitement par lot. On remarque ci-dessous la qualité de la reconnaissance obtenue. La segmentation est automatique. Petit bémol poussant à l’achat : un filigrane est ajouté au PDF.

  • PDFelement Pro de Wondershare : Modifiez et extrayez du texte d’images avec OCR : Lien
  • PDFelement User Guide for Windows, PDF : Lien
  • PDFelement User Guide for Mac, PDF : Lien
OCR sur texte imprimé avec PDFelement Pro de Wondershare : Lien;
J.C.R. Licklider, Libraries of the future, 1965 : Lien

Créée par David Yang en 1989, la société ABBYY dispose d’un solide savoir-faire dans le domaine de l’OCR professionnel. L’éditeur de PDF ABBY FineReader 15 intègre un panneau dédié spécifiquement à l’édition de l’OCR. On remarque la présence de plusieurs panneaux rendant simultanément visible la segmentation du texte, la zone d’édition et l’image du texte à transcrire.

Les caractères alphabétiques établis comme possiblement mal reconnus sont surlignés en bleu et une fenêtre dédiée à la relecture peut être utilisée. Les sauvegardes sont possibles en une variété de formats parmi lesquels PDF (interrogeable, image), Word, Excel, EPUB, HTML, ODT, DjVu. Des fonctionnalités spéciales sont développées depuis 2003, dédiées à la reconnaissance des polices de caractère gothiques, particulièrement présentes dans la littérature des pays germaniques du XVIe au XXe siècle. Le logiciel peut reconnaitre des formules mathématiques simples. Disponible pour Windows ou Mac en version d’essai gratuite pour 7 jours,

  • Acrobat Pro DC – Reconnaissance optique de texte – OCR, 2017, teZabo : Lien
  • Abbyy FineReaderPDF, Old European languages and gothic fonts : Lien
  • ABBYY® FineReader PDF 15, Guide de l’utilisateur, PDF : Lien
L’éditeur d’OCR d’ABBYY FineReader 15, fenêtre dédiée à la vérification des reconnaissances incertaines (papiers de Bourbaki) : Lien

1.2.2 Zotero plateforme de transcription

Conçu pour gérer des bibliographies essentiellement, le logiciel open source Zotero peut servir également de plateforme de transcription pour des travaux participatifs. Les documents à transcrire (ici une lettre de Mme de Sévigné) sont stockés sous forme de pièce jointe dans une version locale de Zotero. La transcription de chaque image peut alors être réalisée sous forme de note liée à l’image. La transcription de l’ensemble de même que des notes de bas de page peuvent être rassemblées sous forme d’un fichier du type Note au format HTML ou XML (TEI), attaché à la racine du document.

Après activation de la synchronisation avec le site web Zotero, les images et transcriptions sont possiblement vus et partagés de manière publique. Une personne peut ainsi travailler depuis divers postes sur le même document. Un groupe peut gérer de manière répartie un petit ensemble de documents à transcrire. Le format d’export le plus complet est Zotero RDF. Pas d’OCR ni d’HTR intégré.

Image d’un document et de sa transcription éditée localement sous Zotero (correspondance Mme de Sévigné)

1.2.3 Tropy

Tropy est un logiciel de bureau open source spécialement conçu pour gérer de manière personnelle les documents d’archives (textes, journaux, images, photographies, gravures, tableaux). Les documents peuvent être rassemblée en collections. Les formats d’export des métadonnées sont JSON-LD, Omeka S ou CSV. Un plugin de Tropy rend possible l’exportation directe des données vers un site Omeka S. Plusieurs transcripteurs peuvent ainsi collaborer sur un projet d’ampleur. Créé en 2017, le logiciel est écrit en javascript, framework electron, BDD SQLlite. Tous OS, plugin IIIF. Pas d’OCR ni d’HTR intégré.

  • Tropy : Lien
  • Sur Wikipedia, en : Lien
  • Documentation, en : Lien
  • Code source et plugins : Lien
  • Tropy, 4 vidéos, 2018 : Lien
  • Export to Omeka S : Lien
  • Un logiciel pour gérer les photos d’archive: recension de Tropy, 2018, Atelier Ideas & Research : Lien
Transformez des photos en documents à indexer et transcrire avec Tropy : Lien

1.2.4 Transkribus

Le logiciel Transkribus a été financé par deux projets européens successifs tranScriptorium (2013-2015) et READ (Recognition and Enrichment of Archival Documents – 2016-2019). Il a été développé à l’Université d’Innsbruck et intègre des composantes mises au point par le Pattern Recognition and Human Language Technology Center (PRHLT) de l’Université technique de Valence, le Computational Intelligence Technology Lab de l’Université de Rostock et le Département d’histoire de l’Université de Montréal. La société READ-COOP assure depuis 2019 la maintenance du code source et les développements. Le modèle économique repose sur le libre accès au code source et la commercialisation de certains traitements, des contrats passés sur des projets nationaux et européens.

Les principales fonctionnalités de Transkribus sont l’analyse de la mise en page des imprimés (Layout Analysis), la reconnaissance optique de caractères (OCR), la reconnaissance d’écriture manuscrite (HTR), le repérage de mots-clés dans le texte (Keyword Spotting), l’annotation. Il faut tout d’abord s’inscrire sur le site web puis un logiciel de bureau peut être téléchargé et installé, compatible Windows, MacOS ou Linux. Le lanceur se trouve présent dans le dossier téléchargé. L’exécution du fichier Transkribus.exe localisé à la racine lance le logiciel java. On peut synchroniser les traitements faits localement avec la plateforme web et bénéficier ainsi d’un espace distant de stockage des images et des transcriptions. Les fichiers possibles à traiter sont au format image, PDF ou IIIF.

Une image à analyser (en résolution supérieure à 300 dpi de préférence) est chargée et devient visible dans l’interface. La reconnaissance du texte se fait en trois étapes manuelles successives. 1/ Analyse de la mise en page. Cela est réalisé depuis l’onglet “Tools” de l’interface dans la partie “Layout Analysis” en lançant le bouton “Run”. Un job (processus) est lancé. Le logiciel affiche les zones du document considérées comme lignes à transcrire et les numérote. 2/ Reconnaissance optique. Sous “Tools” également dans la partie “Text Recognition”, un modèle entraîné est choisi, par exemple “Transkribus French Model 1” et appliqué à l’image. 3/ Vérification manuelle et ajout d’éventuels mots-clés (abbréviations, annotations).

A noter en matière de qualité des images qu’un prétraitement peut s’avérer nécessaire pour obtenir une bonne reconnaissance des manuscrits. Les fonds coloriés et tramés par exemple rendent moins performante l’HTR. Une image disponible au format IIIF peut être chargée et analysée dans le logiciel en indiquant l’URL de son manifeste. L’import est indiqué comme job en cours et le document est téléchargé. En ce qui concerne les exports de transcription, les formats Transkribus Document, PDF, TEI, DOCX et texte simple sont possibles. L’export est réalisé au choix sur le serveur ou bien localement et se fait notamment au format METS, un format qui permet d’englober images, métadonnées et transcriptions. L’entrainement d’un nouveau modèle adapté à un lot de documents est payant. 500 crédits sont offerts et la reconnaissance sur un texte coûte 1,25 crédit. Abondante documentation en anglais. Parmi les 89 modèles rendus publiquement disponibles en 2022, 7 concernent l’écriture manuscrite en français, 7 autres les imprimés français du XVIIème au XXème siècle.

Transkribus a été récemment utilisé sur plusieurs projets ANR comme par exemple TIME-US : Travail, rémunération, textile et foyer (XVIIe-XXe siècle). Répartie entre Paris, Lille, Marseille et Lyon, l’équipe de est constituée des membres de plusieurs laboratoires. Les archives de Foucault sont également traitées à l’aide de cette plateforme dans le projet Foucault Fiches de Lecture (FFL, 2017-2020). Le consortium de laboratoire Paris Time Machine utilise Transkribus pour transcrire plusieurs annuaires imprimés des rues de Paris datés de 1898 à 1913 et en obtenir une version numérique.

  • Entrepôt des codes sources de READ COOP : Lien
  • How To Transcribe Documents with Transkribus – Introduction, 2021 : Lien
  • How To Enrich Transcribed Documents with Mark-up, 2021 : Lien
  • How To Export Documents from Transkribus, 2021 : Lien
  • Public AI models in Transkribus : Lien
  • How to historical text recognition: A Transkribus Quickstart Guide, 2019, LaTeX Ninja : Lien
  • TIME-US : Travail, rémunération, textile et foyer (XVIIe-XXe siècle), 2017-2020 : Lien
  • TIME-US, le wiki, Guide d’annotation : remarques générales : Lien
  • Deux siècles de sources disparates sur l’industrie textile en France : comment automatiser les traitements d’un corpus non-uniforme ?, 2019, Jean-Damien Généro, Alix Chagué, Victoria Le Fourner, Marie Puren : Lien
  • Transcribing and editing digitized sources on work in the textile industry, 2021, Jean-Damien Généro, Alix Chagué, Victoria Le Fourner, Marie Puren : Lien
  • Le projet Foucault Fiches de Lecture (FFL), 2017-2020 : Lien
  • Transcrire automatiquement les fiches de lecture de Michel Foucault avec Transkribus : retour d’expérience, 2019, Marie-Laure Massot, Vincent Ventresque : Lien
  • Transcription assistée par reconnaissance optique avec Transkribus : L’expérience du journal intime d’Eugène Wilhelm (1885-1951), 2020, Régis Schlagdenhauffen : Lien
  • Paris Time Machine, visualiser les adresses d’annuaires parisiens, 2021, Carmen Brando, Frédérique Mélanie : Lien
Le panneau principal de Transkribus, transcription après correction humaine (Correspondance d’Henri Poincaré)

2. Services et plateformes du web

Plusieurs services et logiciels se montrent spécifiquement conçus pour réaliser l’OCR de lots de documents ou pour faciliter la participation de groupes de recherche à des projets impliquant des efforts collectifs. Diverses plateformes plus ou moins ouvertes et spécialisées rendent possibles des efforts partagés. OCR et HTR ne sont parfois pas si évidents à distinguer et certaines plateformes ici évoquées permettent de faire l’un ou l’autre en choisissant des modèles adaptés.

  • Reconnaissance optique des caractères et des écritures manuscrites, Projet E-NDP, 2021, Jean-Baptiste Camps, Nicolas Perreaux : Lien

2.1 OCR avec ShareDocs (Huma-Num)

ShareDocs est un gestionnaire de fichiers déployé par Huma-Num et proposé aux acteurs de la recherche française dans le domaine des SHS. La plateforme (une instance du logiciel FileRun) permet le stockage et le partage des fichiers dans un cadre professionnel, entre membres d’un groupe de recherche. Plusieurs services d’OCR sont intégrés et proposés aux utilisateurs.

Un répertoire spécial nommé “hnTools_WatchFolder” contient par défaut une arborescence (Audio, OCR, PDF, Video) dédiée au stockage provisoire de fichiers sur lesquels des traitements sont effectués de manière automatique. Le principe est celui du Watch Folder : un processus scanne ces répertoires à la recherche de fichiers nouvellement déposés. Le document est traité et un email est envoyé au déposant pour lui signaler la fin du processus. Le fichier résultant est stocké dans le même répertoire que le fichier d’origine, avec le même nom mais avec une extension différente. Les fichiers sont traités en une dizaine de minute en général.

Parmi les outils relatifs à l’OCR, on note les répertoires / services abbyCloud (toExcel, toPDF, toTexte, toWord, toXML, toXMLAlto), abbyServer (toExcel, toPDF, toTexte, toWord, toXML, toXMLAlto), Tesseract (toHOCR, toPDF, toTexte, toTSV). Les services AbbyCloud et AbbyServer sont limités à un quota annuel de 900 pages par utilisateur. L’OCR Tesseract est open source et il n’y a pas de quota. AbbyyCloud se montre adapté pour traiter des documents de taille inférieure à 30Mo. Le processus transfert le fichier sur le serveur d’Abbyy situé en Europe dans le Cloud de Microsoft Azure. Se posent alors d’éventuelles questions de confidentialité des sources. L’option “oldLanguage” est activée par défaut. Avec Abbyy Fine Reader le fichier à OCRiser est envoyé sur un serveur interne qui peut traiter des documents dont la taille va jusqu’à 2 Go. Le moteur d’OCR est mis à jour une fois par an.

Un test est réalisé sur un tapuscrit écrit par Jean Delsarte (Rédaction n°033. Algèbre. Chapitre I. Structures algébriques) réputé difficile à OCRiser de manière standard. Les trois services d’Huma-Num sont brièvement testés et comparés pour leur modèle standard en langue française.

  • ShareDocs – Outils de traitement, Reconnaissance de caractères (OCR) : Lien

2.2 FromThePage

La plateforme payante FromThePage se montre adaptée à la transcription et à l’annotation d’une variété de documents. Plateforme payante avec démonstration gratuite possible. La création du logiciel date de 2005 et plus d’un million de pages ont déjà été transcrites à l’aide de FromThePage. Parmi les orgnismes notablement actifs Harvard, Stanford, la Folger Shakespeare Library, le Victoria and Albert Museum, les archive d’État de l’Alabama, de la Caroline de Nord et du Maryland. La plateforme permet de versionner les transcriptions. Les formats acceptés incluent PDF, une collection de fichiers au format ZIP. Les PDF peuvent être OCRisés et l’OCR du PDF peut être corrigé. La plateforme peut ingérer des images au format IIIF, ou bien provenant de bibliothèques numériques gérées sous CONTENTdm (gestionnaire de bibliothèque numérique de l’OCLC). Export possible et facilité vers Internet Archive ou Omeka.

  • FromThePage, Plateforme : Lien
  • FromThePage, Blog : Lien
  • Code source, Ruby on Rails : Lien
  • Getting Started with From the Page, vidéo 7:38 : Lien
  • More Than Round Trip: Using Transcription for Scholarly Editions and Library Discovery, 2021, Bethany Radcliff : Lien
FromThePage et son usage dans un workflow de transcription d’images en IIIF aboutissant à la publication sur une plateforme documentaire Omeka S : Lien

2.3 Transkribus Lite

OCR et HTR peuvent être effectués à l’aide d’un ensemble de modèles adaptés à différentes langues européennes y compris le français à l’aide du site en ligne gratuit Transkribus Lite. Cette version web allégée du logiciel Transkribus offre de nombreuses possibilités y compris celle d’annoter les textes transcrits. Les exports des transcrits aux formats TXT ou PAGE-XML sont possibles. Ce dernier format sur lequel nous reviendrons permet de récupérer la transcription et l’annotation du texte dans un seul fichier.

Les essais faits sur un tapuscrit et un manuscrit sont ici montrés. Le tapuscrit se montrait mal reconnu par Tesseract et moyennement par ABBYY Finereader 15. Les résultats se montrent satisfaisants en choisissant un modèle de reconnaissance standard adapté au français en caractère imprimé. En ce qui concerne le manuscrit, les lignes sont bien reconnues mais les mots ne le sont pas. Un prétraitement des images ou bien un modèle entrainé spécifiquement sur le corpus seraient possiblement nécessaires. Transkribus Lite propose une interface agréable, d’usage aisé sans formation particulière. Documentation en anglais uniquement.

  • Transkribus Lite : Lien
  • Getting Started with Transkribus Lite : Lien
  • Training my own Handwritten Text Recognition (HTR) model on Transkribus Lite, 2022, LaTeX Ninja : Lien
Panneau d’accueil de Transkribus Lite après connexion
Transcription d’un tapuscrit avec Transkribus Lite, vue simple et téléchargement (Bourbaki)
Écran d’édition de l’HTR et annotation manuelle avec Transkribus Lite (Correspondance Poincaré)

2.4 Plateformes Omeka

Diverses plateformes de transcription intègrent depuis 2009 Omeka Classic ou depuis 2016 Omeka S. L’adaptation de ces gestionnaires de documents a donné lieu au développement de plusieurs plugins dédiés. Plusieurs organisations du travail sont possibles, dépendant de l’ampleur et du type de projet : 1/ Des transcriptions sont réalisées sur le poste du transcripteur qui dispose ainsi d’un environnement familier. La mise en ligne est assurée dans un second temps après modération des travaux de transcription et d’annotation. 2/ Une plateforme et une organisation adaptées permettent la transcription et la modération en ligne.

2.4.1 Omeka Classic

Parmi les plugins possibles à installer, certains sont dédiés à la récupération automatique du texte à partir des PDF OCRisés. D’autres ajoutent des fonctionnalités de notation en TEI à la barre des tâches de l’éditeur javascript comme par exemple le plugin Transcript développé pour la plateforme EMAN-Omeka par Richard Walter et Vincent Buard. Les différentes versions des transcriptions peuvent être gérées à l’aide d’un plugin particulier d’Omeka nommé Scripto. Ce plugin nécessite le couplage de la plateforme Omeka à une installation MediaWiki. Dans Les procès-verbaux du Bureau des longitudes, les transcription sont renseignée sous forme de métadonnée du champs Dublin Core “Desciption”, ce qui les rend aisées à interroger avec le moteur de recherche.

  • Transcript, TEI transcription for Omeka Classic content : Lien
  • La correspondance inédite du géomètre Gaspard Monge (1746-1818), ENS, Plateforme e-Man : Lien
  • Édition numérique de la correspondance de Marcel Proust, Labo Litt&Arts, Plateforme ELAN : Lien
  • Mines Paris Tech, bibliothèque patrimoniale numérique, Paris, site participatif : Lien
  • Les procès-verbaux du Bureau des longitudes, Un patrimoine numérisé (1795-1932), AHP-PReST, Plateforme AHP-numérique : Lien

2.4.2 Omeka S

Développée par le campus Condorcet et l’IMAF (Institut des Mondes Africains), la plateforme Transcrire héberge plus d’une dizaine de projets de transcription de manuscrits dont certaines autours des correspondances ou de carnets de terrain. Le design et la mise au point de nouveaux modules sont confiés au prestataire Limonade & Co. La plateforme a été migrée d’Omeka Classic à Omeka S et intègre les fonctionnalités de Scripto. Un autre module nommé DataScribe est développé en 2022. Il permet la transcription à l’aide d’une interface spéciale de documents du type “Tableau de données” provenant d’archives institutionnelles. L’image sur la gauche et la transcription sur la droite sont simultanément visibles dans l’interface.

  • Plateforme Transcrire : Lien
  • Transcrire avec Omeka S et Scripto, Limonade & Co : Lien
  • Scripto, transcribe and translate items : Lien
  • Datascribe : Lien

2.5 Transcription et Annotation de Corpus Textuels (TACT)

TACT, plateforme de Transcription et d’Annotation de Corpus Textuels est lancée en 2019 porté par l’UMR Litt&Arts de l’Université Grenoble Alpes. De conception récente, le site est encore en cours d’évolution. Certains projets se montrent ouverts à des participations externes et affichent leurs documents numérisés. La plateforme est actuellement développée par un processus intégré de validation des transcriptions et éventuelles annotations. La plateforme prend en compte la structure éventuellement arborescente d’une collection d’images. Les données peuvent être importées au format normal ou compressé en zip. Les documents sont décrits par défaut au format Dublin Core simple.

Lorsqu’une opération de transcription est en cours, l’accès à la page devient bloqué. L’OCR peut être déclenché à la demande et fonctionne bien sur les imprimés avec Tesseract. Le zoom motorisé par OpenSeadragon se montre fluide et intuitif à manipuler. Les médias peuvent être éventuellement externalisés y compris sur un serveur IIIF, tel que fourni par exemple par Omeka, Nakala, Gallica, Europeana et d’autres. L’interface de transcription peut être paramétrée en fonction des projets dans le but de mettre à disposition du transcripteur une variété d’annotations. Des éléments physiques d’un texte (titre, page, paragraphe, rature d’un manuscrit, interligne) peuvent être annotés. Il est également possible de configurer l’interface de manière à annoter des aspects sémantiques du corps du texte. Les noms de personne, de date, de lieu et autres peuvent être également annotés. La configuration de l’interface de transcription se fait à l’aide d’un fichier JSON, possiblement dans le respect de TEI.

En ce qui concerne l’export des transcriptions et annotations, il se fait par défaut en un format XML “TACT” dédié. Une feuille de style XSL peut être appliquée au XML afin par exemple d’obtenir un document au format TEI valide. Au niveau informatique, on note le code source écrit en PHP Symfony 4 / MySql en libre accès. Les inscriptions sur TACT sont filtrées par le responsable de projet et les transcriptions sont signées des contributeurs.

  • Plateforme TACT : Lien
  • Documentation utilisateur : Lien
  • Documentation sur GitLab : Lien
  • Code source, PHP Symphony, installation via Docker : Lien
  • Les brouillons de La Réticence, terrain d’expérimentations, 2021, Brigitte FERRATO COMBE : Lien
  • TACT, plateforme collaborative de transcription et d’annotation de corpus textuels, a été lancée le 4 juin 2019 avec le concours de notre équipe ELAN. Que s’est-il passé depuis ?, 2021, ELAN : Lien
Pages en cours de transcription du projet HOFRAME sur TACT : Lien
La plateforme de transcription TACT (projet HOFRAME) : Lien

2.6 eScriptorium

eScriptorium est la plateforme de transcription du projet de Paris Sciences Lettres Scripta motorisée par la bibliothèque logicielle d’HTR Kraken. Ce projet ambitieux débute en 2018 avec l’arrivée de Peter Stokes à l’EPHE (École Pratique des Hautes Études), Université PSL. Il vise à fournir aux chercheurs en sciences humaines un ensemble d’outils intégrés capable d’apporter une aide intégrée à la transcription, l’annotation, la traduction et la publication de documents d’intérêt historique.

La plateforme permet l’OCR et l’HTR. Elle intègre des capacités complexes de recherche, de filtrage, d’annotation et des formes simples de travail collaboratif, incluant la numérotation des versions des transcrits produits. Possibilité d’import d’images au format IIIF, détection des lignes automatiques avec direction de l’écriture (manuel ou automatique, problème complexe), interface de transcription, possibilité. Les modèles HTR peuvent être exportés ou publiés sur le Zenodo OCR/HTR repository. Difficulté de l’entrainement d’un modèle. Possibilité usage personnel, configuration pour petits groupes (Vietnamica, EPHE) ou bien consortium (ManuscriptologistIA). Nécessité de mettre en place une instance locale. Pas d’instance de démonstration. Voir Kraken.

2.7 Arkindex

Développée par la société Teklia spécialisée en IA et impliquée dans l’important projet Biblissima+ (Campus Condorcet, 2021-2029), Arkindex est une plateforme web de traitement de document complète qui inclut l’OCR et l’HTR, l’analyse de la mise en page du document, son classement et l’extraction d’entités nommées (l’annotation automatique). Les images stockées au format IIIF peuvent être aisément partagées. La plateforme dont le code source n’est pas public rend possible l’import de projets Transkribus.

  • Plateforme Arkindex de démonstration : Lien
  • Documentation utilisateur d’Arkindex : Lien
  • Teklia, Automatic Document Processing with AI : Lien
  • Biblissima, Teklia : Lien
Panneau central de l’interface d’Arkindex : Registre de naissance de 1903 de Notre-Dame-de-la-Visitation (Québec) : Lien

2.8 Recogito

Recogito est une plateforme d’annotation des textes possiblement grecs et latin mentionnant des toponymes possibles à géolocaliser (textes du type répertoire toponymique, périples et guides antiques, cartes médiévales). Elle est développée par le réseeau Pelagios soutenu de 2011 à 2019 par la fondation Andrew W Mellon. Le code source est ouvert mais les développements et la maintenance sont stoppés à la version 3 en 2019. Le réseau reste cependant actif et la plateforme trouve des débouchés, dans plusieurs projets scientifiques en divers lieux européens et américains, à la British Library et en France à l’Ecole Française d’Athènes. Développée par l’équipe de Rainer Simon (Autriche), Recogito autorise l’import de collections d’images IIIF par l’intermédiaire de leur manifeste tout aussi bien que l’import de textes au format TEI. Les formats d’export satisfont une variété d’usages et de cas et incluent CSV, GeoJSON, TEI, le format Web Annotation du W3C.

  • Code source Recogito 3 (2019) : Lien

2.9 Autres plateformes et outils

  • SAS – Simple Annotation Server (Glen Robson, Welsh Book of Remembrance project)
  • Enrich Europeana (PHP, Java, JavaScript) : Lien
  • pyBossa (Python) : plateforme open source développée par scifabric. Elle s’inspire de la plateforme participative Bossa. Les tâches rendues possibles par collaboration incluent la classification des images, la transcription, la localisation de l’information, le comptage dans le cadre de projets scientifiques ou citoyens. Une plateforme peut héberger un ou plusieurs projets, susceptibles d’assigner des tâches à des groupes de volontaires : Lien
  • HTR-United : Mutualisons la vérité de terrain !, 2021, Alix Chagué, Thibault Clérice, Laurent Romary : Lien

3. Projets grand public intégrant l’OCR ou l’HTR

Plusieurs institutions ont mis au point des applications web et des plateformes dédiées à la transcription participative. Certains projets intègrent l’assistance à la transcription.

3.1 Wikisource

Créé en 2003 par la Wikimedia Foundation, la bibliothèque numérique Wikisource publie des textes imprimés et manuscrits dans le respect des droits d’auteur et de règles de fonctionnement clairement édictées. La transcription doit pouvoir être comparée avec l’original archivé dans la médiathèque Wikimedia Commons. Les transcriptions sont rendues disponibles sous licence CC0, une licence proche du domaine public. Le portail donne accès à une liste des documents à transcrire ou déjà transcrits. Les catégories françaises suivantes sont distinguées : Articles, Bilingues, Discours, Juridiques, Lettres, Livres, Manifestes, Manuscrits, Militaires, Partitions, Poèmes, Formats divers, Images.

Au niveau technique, la syntaxe de notation des wikis est utilisée. L’interface offre à l’utilisateur la possibilité d’OCRiser un texte complet ou bien une zone particulière à l’aide d’un outil de capture intégré à l’interface. Plusieurs versions de la transcription d’un même texte peuvent coexister. La plateforme se montre possible à utiliser pour des transcriptions participatives grand public ou pour des études scientifiques avancées.

  • Wikisource, Aide:Guide du nouveau contributeur : Lien
  • Wikisource, Catégorie:Manuscrits : Lien
  • Wikisource, Aide:OCR : Lien
  • Wikisource, Page:Lettre de Camille Saint-Saëns à Augusta Holmès.pdf/1 : Lien
  • Alexandre Guilbaud, Irène Passeron, Marie Leca-Tsiomis, Olivier Ferret, Vincent Barrellon and Yoichi Sumi, 2013, « Entrer dans la forteresse » : pour une édition numérique collaborative et critique de l’Encyclopédie (projet ENCCRE). https://doi.org/10.4000/rde.5050
  • Wikisource, Encyclopédie, ou Dictionnaire raisonné des sciences, des arts et des métiers : Lien
  • Thomer, A., Vaidya, G., Guralnick, R., Bloom, D., & Russell, L. (2012). From documents to datasets: A MediaWiki-based method of annotating and extracting species observations in century-old field notebooks. ZooKeys, (209), 235–253. https://doi.org/10.3897/zookeys.209.3247
  • Wikisource, Field Notes of Junius Henderson : Lien
Wikisource, outil de capture et OCR d’une colonne d’un article de presse : Lien

3.2 Transcribe Bentham

Lancé en 2010, le projet Transcribe Bentham mené par l’University College de Londres constitue un projet emblématique du domaine de la transcription collaborative. L’interface est basée sur le moteur de wiki MediaWiki. Les manuscrits de Jeremy Bentham et de ses assistants rédigés en anglais, français, latin et grec numérisés en haute définition et tuilés sont transcrits par des équipes de volontaires formés. Il est demandé d’ajouter des balises en TEI (Text-Encoding Initiative) afin de préserver le format du texte et de signaler les parties illisibles. Les transcripteurs peuvent surligner certaines parties, identifier une position dans le texte pour indiquer les retours à la ligne, les paragraphes, les orthographes inhabituelles, les ajouts fréquents, les marginalia. Des extensions de MediaWiki (JBTEIToolbar, TEITags) facilitent le balisage des textes. La transcription est ensuite soumise à modération pour validation et conversion en XML. Un blog apporte aux participants des informations complémentaires. Le projet reste actif en 2022 et le code source de la plateforme est rendu public. Les sources sont rendues disponibles sous licence Creative Commons 4.0 non commercial. Plusieurs articles scientifiques apportent des précisions.

  • Transcribe Bentham, Transcription Desk : Lien
  • Transcribe Bentham, Blog : Lien
  • Sur Wikipedia : Lien
  • Code des plugins de MediaWiki du projet, University College London, plugins de MediaWiki : Lien
  • Bentham Papers, Free Text Search, moteur de recherche plein texte (PRHLT) : Lien
  • Building A Volunteer Community: Results and Findings from Transcribe Bentham, Digital Humanities Quaterly, vol. 6, n°2, 2012, Tim Causer, Valerie Wallace : Lien
  • Transcribe Bentham : recherche historique et crowdsourcing, 2017, par Gauthier Herbille, Jeremy Mazet et Axel Petit, ApprentHiST : Lien
  • Randa El Khatib, Alyssa Arbuckle, Caroline Winter, Ray Siemens, the Electronic Textual Cultures Lab, Open social scholarship in action, Digital Scholarship in the Humanities, Volume 36, Issue Supplement_1, June 2021, Pages i15–i22, https://doi.org/10.1093/llc/fqaa033
Transcription d’un tableau de données avec Transcribe Bentham : Lien

3.3 Zooniverse

Zooniverse est une plateforme participative maintenue par la Citizen Science Alliance et développée par les laboratoires de la bibliothèque publique de New-York (NYPL Labs). Le site héberge de nombreux projets de science citoyenne dont certains se montrent populaires. Les domaines de la transcription des lettres manuscrites et de l’annotation des images sont couverts. Dans le cas des textes manuscrits, plusieurs propositions de transcription sont fournies par une IA après marquage des lignes à transcrire. Le transcripteur valide la plus pertinente des propositions.

On trouve derrière l’instance Zooniverse le logiciel Scribe dédié à la transcription collaborative des manuscrits du type enregistrements anciens manuscrits et massifs. Le projet participatif Emigrant Savings Bank records a numérisé et entreprend la transcription des livres de compte anciens de la banque new-yorkaise dont les activités débutent en 1850. Certains projets sont menés par des groupes de généalogistes américains.

Un projet nantais s’est emparée de l’initiative. Une collection de plus de 60 registres conservés à la BnF renferment la comptabilité quotidienne du théâtre de l’Opéra-Comique et constituent une source riche, précieuse et fiable de données relatives à l’économie du spectacle sur la période de 1717 à 1794. L’intégralité du corpus représente environ 27 000 pages. Les fac-similés numérisés grâce à un précédent programme de recherche sont accessibles à partir du portail Gallica. La plate-forme RECITAL se base sur le logiciel Scribe newyorkais. RECITAL, Contribuez librement à une expérience de transcription participative des REgistres de la Comédie-ITALienne de Paris au XVIIIe siècle !

  • Site du projet Zooniverse : Lien
  • Code source Zooniverse, déploiement docker : Lien
  • Zooniverse Scribe API, Documentation : Lien
  • Framework Scribe : Lien
  • Code source Zooniverse, MongoDb, Nodejs, Ruby : Lien
  • Heather D Vance-Chalcraft, Allen H Hurlbert, Jennifer Nesbitt Styrsky, Terry A Gates, Gillian Bowser, Colleen B Hitchcock, Michelle Anne Reyes, Caren B Cooper, Citizen Science in Postsecondary Education: Current Practices and Knowledge Gaps, BioScience, 2022;, biab125, https://doi.org/10.1093/biosci/biab125
  • BLICKHAN, Samantha, KRAWCZYK, Coleman, HANSON, Daniel, et al. Individual vs. Collaborative Methods of Crowdsourced Transcription. Journal of Data Mining and Digital Humanities, 2019 : Lien
  • Site du projet participatif RECITAL, Université de Nantes : Lien
  • Contrainte et Intégration : pour une réévaluation des spectacles forains et italiens sous l’Ancien Régime – CIRESFI, Projet-ANR-14-CE31-0017 : Lien
  • Forum des transcripteurs RECITAL : Lien
Le projet de transcription Anti-Slavery Manuscripts sur Zooniverse : Lien

3.4 Autres projets participatifs

  • Europeana Transcribe : Join us in transcribing, annotating and georeferencing Europe’s digital cultural heritage! Europeana Transcribe is an online citizen science initiative for the enrichment of digitised material from Europeana Collections : Lien
  • Transcribathon, Europeana : FRAD063-060 Jean Auguste LAMAZIERE. Sapeur pompier , fils de Bonnet LAMAZIERE et Louise COFFIN. Oncle du déposant. Recruté à Riom (département du Puy-de-Dôme, France), classe 1899, matricule 1607. Engagé volontaire pour quatre ans le 03/03/1898 à la mairie de Riom pour le 105e régiment d’infanterie. Caporal le 04/02/1899. Passé dans la réserve de l’armée active le 03/03/1902. Dispensé comme sapeur-pompier en 1912. Mobilisé le 14/08/1914, campagne contre l’Allemagne jusqu’au 25/01/1919. Se retire à Marsat (département du Puy-de-Dôme, France). Extrait de son carnet de notes et ensemble de photographies : Lien
  • CrowdHeritage (JavaScript) est une plateforme en version de test en 2022. Les institutions du patrimoine culturel peuvent partager certaines métadonnées de leurs collections nécessitant correction ou amélioration. Expert ou novice sont invités à participer à des campagnes de crowdsourcing (production participative), en mettant leurs connaissances à disposition de la découverte de grandes collections patrimoniales européennes. Plateforme motorisée en javascript particulièrement agréable et réactive promue par le Ministère de la Culture français. Développé par l’Artificial Intelligence and Learning Systems Laboratory d’Athènes, à suivre : Plateforme, Code source
  • By The People, Library of Congress. By the People is a crowdsourced transcription program launched in 2018 at the Library of Congress. Volunteer-created transcriptions are used to make digitized collections more accessible and discoverable on loc.gov. : Lien

4. Composantes de plateformes

Des composantes de plateformes se trouve fréquemment en accès libre et peuvent être testées. Au-delà de la forme des caractères, la mise en page du texte distingue expressément les documents imprimés et manuscrits. De nombreux logiciels d’OCR libres et propriétaires se distinguent. Bien qu’intéressant depuis de nombreuses années l’industrie, la question de l’HTR se montre plus récente et relativement moins bien connue. Les logiciels Tesseract et kraken sont brièvement présentés.

  • Comparison of optical character recognition software : Lien
  • Handwriting recognition : Lien

4.1 L’OCR avec Tesseract

Tesseract s’avère relativement ancien, mais cependant largement utilisé car il a su évoluer et s’adapter aux nécessités informatiques du moment. Initialement développé au format propriétaire en langage C par Hewlett Packard entre 1985 et 1994 au HP Labs Bristol et à Greeley Colorado, le programme est migré de C à C++ à partir de 1998. Il devient disponible en 2005 sous licence Apache 2.0 (redistribution possible). Google sponsorise à partir de 2006 les développements sous forme d’embauche du développeur principal Ray Smith. Un important effort de modernisation du code a été fourni pour la 4ème version sortie en 2018. Celle-ci inclut une technologie LSTM pour reconnaitre les caractères dans le flux de texte. La 5ème version majeure est sortie fin 2021.

Des dictionnaires viennent augmenter les chances de reconnaissance des mots et Tesseract se montre adapté à l’OCR en plus d’une centaine de langues, avec écriture de gauche à droite ou l’inverse. Les entrées se font aux formats image BMP, PNM, PNG, JFIF, JPEG, TIFF. Pour le PDF en entrée, des bibliothèques logicielles python telles que OCRmyPDF s’appuient sur Tesseract pour ajouter la couche de reconnaissance optique aux fichiers.

Avec Tesseract, les sorties sont possibles aux formats plein texte, hOCR, PDF, TSV et XML/ALTO. Tesseract peut au choix de l’utilisateur extraire le texte du document au format TXT, ou bien ajouter une couche de texte sous l’image dans un document PDF de sortie. Le PDF ainsi obtenu devient possible à chercher et le texte peut être copié.

Le logiciel manipulé en ligne de commande se montre essentiellement développé et testé sous Windows, Ubuntu et avec Python. Pour les utilisateurs réticents à ce type d’interaction, des interfaces graphiques existent et sont listés dans la documentation. Les licences de ces offres se montrent libres ou propriétaires, embarquant différentes versions de Tesseract pour un usage sur ordinateur personnel, sur le web ou sur smartphone. Les commandes possibles de Tesseract sont documentées en anglais et des conseils sont donnés pour augmenter la qualité des transcriptions. La bibliothèque Python “pytesseract” apporte un ensemble de fonctionnalités particulièrement bienvenues pour des usages avancés.

  • Slides from Tesseract Tutorial at DAS Santorini, 2016, Ray Smith : Lien
  • Tesseract OCR, code source sur git : Lien
  • Install and Run Tesseract OCR for Windows in 4 Easy Steps : Lien
  • Tesseract OCR, Ubuntu : Lien
  • Tesseract User Manual : Lien
  • OCRmyPDF documentation : Lien
  • GUIs and Other Projects using Tesseract OCR : Lien
  • How to OCR with Tesseract, OpenCV and Python, 2022, Filip Zelic, Anuj Sable : Lien
  • pytesseract : Lien
  • Débuter avec Tesseract (et pytesseract), 2019, Benoit Cayla : Lien
  • Utilisation avancée de Tesseract avec Python, 2020, Benoit Cayla : Lien
  • Tesseract User Manual, Improving the quality of the output : Lien
  • How to OCR with Tesseract, OpenCV and Python, 2022, Filip Zelic, Anuj Sable : Lien

4.2 L’HTR avec Kraken

Le logiciel d’HTR open-source Kraken est initiallement développé à partir d’OCRopus par Benjamin Kiessling alors membre de l’équipe ALMAnaCH (INRIA Paris). Kiessling intègre l’EPHE en 2021 après soutenance de sa thèse sur la transcription de l’arabe imprimé, thèse dirigée par Peter Stokes (UMR 8546 Archéologie et philologie d’Orient et d’Occident). Contairement à OCRopus, qui rassemble différents outils d’analyse de documents, Kraken est un logiciel “clés-en-main” qui prend en charge la binarisation des images, la segmentation, l’entrainement d’un modèle d’OCR/HTR et la reconnaissance d’écriture avec ce modèle. D’abord développé pour les documents imprimés (en caractères latins ou autres, par exemple en arabe), Kraken a produit de bons résultats sur des manuscrits, latins et hébreux médiévaux notamment. Comme Transkribus, Kraken fonctionne grâce à des réseaux de neurones récurrents, et contrairement à Transkribus il est entièrement open-source, y compris ses modèles d’OCR/HTR.

Utilisé actuellement à l’École Pratique des Hautes Études, Université PSL en collaboration avec l’Université de Leipzig, le logiciel est une bibliothèque logicielle écrite en python dont la première version date de 2013. Le projet se montre utilisé notamment par Peter Stokes. Les fonctions concernent l’OCR et l’HTR pour un fonctionnement soit en ligne de commande, soit couplé au logiciel personnel Aletheia soit à la plateforme eScriptorium.

Deux étapes menant à la reconnaissance peuvent être entrainés à l’aide du même modèle. L’étape de segmentation consiste à trouver sur l’image d’une page les régions écrites et les lignes imaginaires guidant l’écriture. L’étape de transcription concerne le texte contenu sur chaque ligne. La phase d’entraînement du modèle peut être réalisée en fournissant au système des fichiers aux formats PAGE ou ALTO (XML). Les modèles de reconnaissance peuvent être entrainés sur une grande variété de mises en pages, de textes, et de langues, notamment non latines. Des langues rares : araméen ancien, japonais médiéval, ougaritique, vieux javanais sont couvertes. L’export des transcriptions en TEI est possible.

4.3 L’HTR avec OCR4all

Alors que les polices de caractères modernes peuvent être reconnues avec une excellente précision par des modèles multi ou polyvalents, les incunables (les livres imprimés avant 1501) de même que les manuscrits requièrent en général un entrainement spécifique pour chaque livre pour atteindre des fréquences d’erreurs inférieures à 5%. OCR4all couvre toutes les étapes d’un workflow d’OCR à savoir le prétraitement des images, l’analyse de la mise en page (la segmentation des régions dans une page contenant les zones écrites), l’entraînement de modèles, la reconnaissance de caractère appliquée aux zones textuelles. Une méthode automatique et facile à employer lorsque cela est possible. Des opérations manuelles sont conservées lorsque cela est nécessaire.

  • OCR4all—An Open-Source Tool Providing a (Semi-)Automatic OCR Workflow for Historical Printings, 2019, Christian Reul, Dennis Christ, Alexander Hartelt, Nico Balbach, Maximilian Wehner, Uwe Springmann, Christoph Wick, Christine Grundig, Andreas Büttner, Frank Puppe : Lien

4.4 PRHLT / TRAN Skriptorium

Le centre de recherche PRHLT (Pattern Recognition and Human Language Technology) a mis au point un logiciel dédié à la transcription automatique doublé d’un moteur de recherche. Des démonstrations sur plusieurs corpus de grande dimension sont accessibles. Les corpus incluent des manuscrits médiévaux, les archives de Bentham et d’autres ensembles manuscrits en espagnol de l’époque médiévale.

  • Bentham Papers Free Text Search (193 boîtes, 90 000 pages) : Lien
  • Himanis Chancery, Trésor des chartes (199 manuscrits, 82 000 pages) : Lien
  • Teatro del siglo de oro español (328 manuscripts, 41 000 pages) : Lien
  • Carabela Free Text Search in Images (328 dossiers) : Lien

4.5 Histograph

Graph-based exploration and crowd-based indexation for multimedia collections. HistoGraph treats multimedia collections as networks. The underlying assumption is simple: if two people are mentioned together in a document, we assume that they may have something to do with each other. Whether or not such a relationship is interesting is in the eye of the beholder. Co-occurrence networks become huge and unwieldy very quickly, which forces us to filter them based on another simple assumption: the more often entities co-occur, the more likely it is that they have a meaningful relationship with each other. We combine these two assumptions with mathematical models (co-occurrence frequencies weighted by tf-idf specificity and Jaccard distances) which allow us to rank the list of co-occurrences. This tells us who appears with whom and in which documents. HistoGraph combines tools like YAGO-AIDA for the automatic detection and disambiguation of named entities – people, places, institutions and dates – with crowd-based annotations.

4.6 Visionneuses javascript

Le format International Image Interoperability Framework (IIIF) (prononcer Triple [i] [f]) s’est imposé ces dernières années pour les possibilités qu’il apporte en matière de visionage des images en haute résolution, éventuellement localisées sur plusieurs serveurs. Le paragraphe 5.3 évoque brièvement le protocole.

  • EZView (Jquery) : Lien
  • Archipoles : Archives polaires françaises. Un document localisé sur Gallica visionné sur Archipoles (Jquery, viewer), visionneuse sans possibilité de transcription ou de recherche : Lien
  • Visionneuses compatibles IIIF.
    • OpenSeadragon : Lien
    • Mirador, a configurable, extensible, and easy-to-integrate IIIF image viewer, which enables image annotation and comparison of images : Lien
    • Diva.js : Only the pages that are being viewed at any given time are actually present in the document, with the rest appended as necessary, ensuring efficient memory usage and high loading speeds. Université McGill, Montréal : Lien
    • UniversalViewer : Lien
    • IIIF Viewer (Klokan Technologies) : Lien
    • Leaflet-IIIF : Lien
    • TIFY, A slim and mobile-friendly IIIF document viewer, University of Göttingen : Lien

4.7 L’annotation de textes et d’images avec RecogitoJS

  • RecogitoJS : Une bibliothèque JavaScript d’annotation des textes. RecogitoJS peut servir à ajouter des fonctionnalités d’annotation sur une page web ou comme composante d’une plateforme indépendante dédiée à l’annotation : Lien
  • Annatorious : Lien

5. Quelques formats du domaine

Plusieurs standards et recommandations apportent l’interopérabilité, c’est à dire la possibilité pour les internautes et les plateformes d’échanger des transcriptions, des fichiers images ou parties d’images, de même que des métadonnées. Les textes imprimés standards peuvent dans un premier temps être OCRisés. Tesseract constitue actuellement une sorte de standard dans le domaine et est présenté en premier lieu. Des alternatives plus expérimentales sont listées dans la partie “6. Composantes de plateformes”. La norme de transcription TEI se montre susceptible d’être appliquée aux textes OCRisés et aux textes pour lesquels cette opération ne s’avère pas possible.

5.1 Formats de mise en page des textes OCRisés

Plusieurs standards permettent la notation normalisée de la position des textes reconnus par le système d’OCR. Les formats d’usage courant ALTO, PAGE et hOCR sont évoqués.

5.1.1 ALTO (XML)

Le format ALTO (Analyzed Layout and Text Object) résulte du projet METAe financé par le programme IST de la CEE de 2000 à 2003, coordonné par l’Université d’Innsbruck et impliquant 14 bibliothèques de 7 pays européens et des Etats-Unis. Ce format XML est actuellement conjointement maintenu par la Bibliothèque du Congrès et la Bibliothèque nationale de France. ALTO est un des formats les plus couramment utilisés par les professionnels de l’OCRisation, notamment pour la presse du XVIIIème au XXème siècle. La mise en page (marges, espace imprimé, composition en bloc des textes) est détectée. Le format indique toutes les coordonnées dans l’image des contenus (textes, illustrations, graphiques) et permet de superposer dans les applications dédiées l’image et du texte. La surbrillance des mots recherchés lors d’une recherche devient alors possible. Le format ALTO est pris en compte par Tesseract, Abby, Kraken.

  • ALTO (XML) : Lien
  • ALTO Technical Metadata for Layout and Text Objects? LoC : Lien
  • Techniques et formats de conversion en mode texte, BnF : Lien
  • METAe, The Metadata Engine Project (Archive) : Lien

5.1.2 PAGE (XML)

Le format PAGE (Page Analysis and Ground-truth Elements) est développé à partir de 2009 par le Pattern Recognition & Image Analysis Lab (PRIMA) de l’Université Salford à Manchester. Il s’agit d’un format de description de l’image d’un document dont les fonctions se montrent voisines de celles du format ALTO ou de hOCR. Ce schéma XML est conçu pour prendre en compte les caractéristiques des images nécessaires à la réalisation de l’OCR et de l’HTR.

PAGE prend en compte des caractéristiques comme la largeur des bordures, les distorsions géométriques et leur correction, la binarisation. Les données prises en compte concernent le prétraitement de l’image, l’analyse de la mise en page et la caractérisation des mots (segmentation), la reconnaissance optique. La validité du format est testée sur des données du type “vérité de terrain” (ground-truth) provenant de jeux d’images de documents contemporains et d’intérêt historique, et lors de compétitions professionnnelles organisées par l’ICDAR (International Conference on Document Analysis and Recognition). Le format est notamment pris en compte par Kraken.

  • PAGE-XML, enrepôt GittHub : Lien
  • The PAGE (Page Analysis and Ground-Truth Elements) Format Framework, 2010, S. Pletschacher, A. Antonacopoulos : Lien

5.1.3 hOCR

Le microformat hOCR propose l’encodage du texte OCRisé dans des balises HTML normalisées. hOCR est un format ouvert plus moderne qu’ALTO possible avec Tesseract qui permet d’encoder le texte retrouvé, le style typographique, la langue, la mise en page du texte, des métriques de confiance de la reconnaissance et d’autres informations dans un formalisme au choix XML, HTML ou XHTML. Ces informations sont stockées sous forme d’attributs et de valeurs dans des balises comme <p> pour un paragraphe ou bien <span> du document HTML. Des outils logiciels écrits en Python ou en C++ rendent possible la conversion d’un document hOCR en PDF cherchable. Le format est utilisé pour les bibliothèques numériques de Google.

  • T. M. Breuel and U. Kaiserslautern, “The hOCR Microformat for OCR Workflow and Results,” Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), 2007, pp. 1063-1067, doi: 10.1109/ICDAR.2007.4377078
  • hOCR – OCR Workflow and Output embedded in HTML, 2020, Konstantin Beuerer, Thomas Breuel : Lien

5.2 Format TEI

La TEI (Text Encoding Initiative) permet d’encoder des textes sous forme électronique, en particulier les textes littéraires et linguistiques. L’initiative vise à rendre compte de l’organisation logique d’un texte et à reconstituer son arborescence hiérarchique (en divisions, chapitres, sous-chapitres, sections, et jusqu’à ses parties les plus complexes telles que citations, vers, noms propres mentionnés dans le texte, soulignement et autres mises en évidence, etc.). Une architecture conçue en modules permet de choisir les éléments répondant aux besoins d’encodage d’un type particulier de texte : poésie, pièces de théâtre, dictionnaires, corpus linguistiques, manuscrits, critiques textuelles, transcriptions de discours oraux, etc.

Dérivé du format XML, le format TEI permet l’encodage de la structure du texte, de sa transcription, l’intégration des images, l’annotation des entités nommées, des ajouts, suppressions, corrections. Des caractéristiques physiques et intellectuelles se trouvent simultanément codés. Des tutoriels accompagnés d’exemples donnent des indications sur les possibilités du format en matière de transcription des sources primaires du type correspondance, manuscrit ou document imprimé. Possibilité d’enrichir en annotant (annotation physique, linguistique, sémantique). TEI publisher pour l’édition.

  • What is the Text Encoding Initiative ? The TEI cornucopia, part two, 2014, Lou Burnard, https://doi.org/10.4000/books.oep.1340 : Lien
  • TEI by Example, Module 6: Primary Sources : Lien
  • La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, 1996, Burnard, Lou, Sperberg-McQueen, C.M. : Lien
  • Réaliser une édition électronique de mon corpus de texte xml et la TEI, 2021, Victoria Le Fourner, Florence Perret : Lien

5.3 Format IIIF d’échange des images et annotations

Le format International Image Interoperability Framework (IIIF) résulte de travaux menés à partir de 2011 par l’Université de Stanford, l’Université d’Oxford, la British Library ainsi que la BnF. La Bibliothèque nationale de France, en tant que participant à cette communauté IIIF, propose l’accès à l’intégralité des images qui composent sa bibliothèque numérique Gallica, ce qui représente plus de 7 millions de documents et plus de 100 millions d’images. Le format définit un ensemble de spécifications qui standardisent les échanges d’images haute résolution ou de portions d’images haute résolution. Il permet de consulter, manipuler ou annoter des images présentes sur des entrepôts distants.

IIIF a été pensé à la fois pour partager et comparer les résultats de travaux scientifiques, éditoriaux ou artistiques. Il rend possible le visionnage dans une même interface de plusieurs documents localisés sur divers serveurs. On peut ainsi envisager de comparer plusieurs versions d’une même rédaction manuscrite, plusieurs éditions d’un même texte que celui-ci soit manuscrit ou imprimé, plusieurs versions d’une même photographie, d’un même dessein ou d’une même peinture.

Le format intéresse donc tout particulièrement les chercheurs et les grandes institutions comme les bibliothèques, les archives numériques nationales et régionales, les musées. Tout document IIIF est identifié dans son entrepôt d’origine par un document appelé “manifeste IIIF”. Ce fichier de métadonnées au format JSON est signalé généralement par son URL dans les métadonnées. Suite à une requête posée par un utilisateur dans une visionneuse compatible, des images stockées sur différents serveurs deviennent affichées côte à côte et peuvent être comparées.

Dans l’exemple suivant, nous nous servons de la visionneuse de démonstration Mirador localisée à l’URL “https://mirador-dev.netlify.app/__tests__/integration/mirador/“. Les pages affichées par défaut sont effacées. Deux ressources sont ajoutées à l’aide du bouton bleu à gauche “Add ressource”. Les manifestes de deux documents sont ajoutés. En premier celui d’un manuscrit dit de Saint-Omer numérisé et localisé sur l’entrepôt de l’IRHT (Institut de Recherche et d’Histoire des Textes, Campus Condorcet). En deuxième lieu un livre localisé à la BnF. Deux pages différentes du manuscrit de Saint-Omer sont ouvertes.

Visionneuse de démonstration Mirador, avec en haut deux pages d’un manuscrit de Saint-Omer, en bas un livre de la BnF, visionnés simultanément à l’aide du format IIIF : Lien
  • IIIF – How it Works : Lien
  • IIIF – How to use IIIF resources and image viewers : Lien
  • IIIF Workshop, University of Pittsburgh, 2019, Jeffrey C. Witt : Lien
  • IIIF Experiments with Gallica content, 2021, Jean-Philippe Moreux : Lien
  • Les bibliothèques numériques et le standard IIIF, 2019, Johann Gillium : Lien
  • API IIIF de récupération des images de Gallica : Lien
  • Europeana IIIF APIs : Lien

Des bibliothèques, des archives ou des musées proposent à leurs visiteurs une expérience utilisateur ludique et enrichissante dans laquelle des documents et oeuvres complexes au format IIIF sont commentées par des spécialistes.

1/ Exposition d’une image annotée par un expert

Papyrus Cadet. Livre des Morts de Padiamonnebnésouttaouy. Egyptien 19, commenté par Vanessa Desclaux à l’aide de Cogapp Storiiies : Lien

Papyrus commenté par Vanessa Desclaux avec Cogapp Storiiies, 2020 : Lien

2/ Collection de photographies annnotées par un amateur

Ella Fitzgerald en concert en 1963. 15 photographies par Roger Pic (IIIF BNF), Visionneuse Mirador (Project Mirador, Stanford), 3 annotations localisées sur SimpleAnnotationServer (Glen Robson, Welsh Book of Remembrance project). Accédez aux annotations personnalisées (photos 1 et 2) en cliquant sur le bouton “sandwich” de la visionneuse et sur “Annotations” : Lien

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, moyenne : 5,00 sur 5)
Loading...

Laisser un commentaire