Métadonnées pour éditer une correspondance

[en cours d’élaboration, sujet à changements…] Deux possibilités existent pour éditer un corpus de correspondance. Avec l’édition papier, tout est classé, analysé et ne bougera plus jusqu’à la prochaine – et hypothétique – édition. L’édition numérique des correspondances rend possible l’ajout de nouveaux documents. Cependant, le format électronique est à juste titre considéré comme fragile. Des opérations de maintenance ne peuvent être évitées si l’on souhaite faire fonctionner sur le long terme un site dédié aux échanges épistolaires d’une personnalité.

Pour Richard Walter et les membres du Consortium Cahier, un corpus numérique de correspondances ne devrait sans doute pas être considéré comme complet et définitif. L’incertitude est présente et des documents fantômes ou insoupçonnés peuvent ressurgir. Des lettres absentes d’un corpus peuvent avoir existé, et soit guider les explorations du Sherlock Holmes qui dort en chaque historien, soit ressurgir au hasard des recherches faites par d’autres personnes.

Ceci étant précisé, il convient de définir le niveau de traitement que vous souhaitez apporter à votre corpus d’échanges épistolaires. Celui-ci peut aller de la plus élémentaire transcription sous traitement de texte avec Word ou LaTex à la plus exigeante transcription en TEI. Les saisies restent généralement manuelles mais avec des logiciels comme Transkribus, l’OCR d’un manuscrit devient possible. À la transcription s’ajoutent possiblement une traduction, un apparat critique, une publication papier.

Parce que les lettres sont le signe de relations humaines multiples, des corpus de correspondances d’une même époque s’avèrent fréquemment interconnectés. Le respect de normes partagées est susceptible de présenter des avantages. Des échanges et des interrogations croisées deviennent possibles. L’interrogation simultanée de plusieurs corpus peut apporter un éclairage inédit sur une époque, un milieu socio-culturel.

Les archives renseignent EAD et peuvent échanger leur données à l’aide de MODS : Lien

Parmi les normes actuellement peu nombreuses relatives aux correspondances papiers, le format CMIF (Correspondance Metadata Interchange Format) de la TEI (Text Encoding Initiative) dédié à la description des lettres émerge en 2015. Un premier moteur de recherche correspSearch donne accès à plusieurs dizaines de milliers de lettres du domaine de la littérature en langue allemande. L’écosystème comprend des entrepôts et un moissonneur. D’autres formats concernent les dates. ISO 8601 ou bien EDTF (février 2019) méritent d’être cités. EDTF prend en compte de manière élégante des dates partiellement inconnues, des approximations, des durées. Une première partie de ce billet décrit le format TEI CMIF et propose des liens vers des ressources.

Des ontologies du web de données concernent le sujet. L’ontologie propriétaire du Getty Research Institute The Art & Architecture Thesaurus (AAT) définit le genre Correspondence par “Any forms of addressed and written communication sent and received, including letters, postcards, memorandums, notes, telegrams, or cables” : Lien, Exemple d’usage en MODS

L’ontologie ouverte schema spécifie les classes Message, EmailMessage, Manuscript, Book, ScholarlyArticle. Les ontologies Wikidata et DBPedia dérivées de Wikipedia contiennent la classe Letter. Des ontologies plus spécifiques comme BIBO (The Bibliographic Ontology), SIOC (Semantically-Interlinked Online Communities), FOAF et Dublin Core peuvent inspirer l’architecture d’une ontologie dédiée à l’édition d’une correspondance.

Une ontologie nommée Message, susceptible de décrire les correspondances et communications interpersonnelles que le support soit papier ou électronique est finalement ébauchée en dernière partie. Elle a pour ambition de permettre de manière complémentaire à CMIF la description de toute lettre, tout graffiti, tout message électronique, tout tweet comportant essentiellement du texte ainsi qu’un éventuel document attaché.

1. Le format TEI Correspondance Metadata Interchange Format (CMIF)

C’est en 1987, autour du format SGML que débutent les travaux de la Text Encoding Initiative (TEI). CMIF correspond à une initiative plus récente visant à encoder de manière formelles les grandes correspondances papiers des siècles derniers dans le cadre normatif de TEI.

1.1 Spécifications de correspDesc

Le manuel “Encoding Correspondence” résume les discussions de l’atelier “Challenges of Correspondence Encoding” organisé par le groupe SIG TEI Correspondence et CLARIN-D à l’Académie des sciences de Berlin-Brandebourg en octobre 2018.

  • Spécifications en-tête : 2 The TEI Header > 2.4 The Profile Description > 2.4.6 Correspondence Description de CorrespDesc : Lien
  • Spécifications corps du texte : 4 Default Text Structure > 4.2.2 Openers and Closers, salutations : Lien
  • Site TEI : TEI Correspondence SIG GitHub, Special Interest Group Correspondence of the Text Encoding Initiative (TEI); Peter Stadler, Marcel Illetschko, and Sabine Seifert; CMIF, encoding-correspondence, LOD, correspDesc
  • Text Encoding Initiative (TEI) Correspondence Special Interest Group (SIG) : Lien
  • TEI Correspondence SIG Wiki : Lien
  • TEI-CORRESP-SIG@LISTSERV.BROWN.EDU : Lien
  • Encoding Correspondence, A Manual for Encoding Letters and Postcards in TEI-XML and DTABf, Stefan Dumont, Susanne Haaf, Sabine Seifert : Lien
  • Towards a Model for Encoding Correspondence in the TEI: Developing and Implementing <correspDesc>, 2016, Peter Stadler, Marcel Illetschko and Sabine Seifert : Lien
  • Perspectives of the further development of the Correspondence Metadata Interchange Format (CMIF), 2015, Stefan Dumont : Lien
  • correspSearch – Connecting Scholarly Editions of Letters, 2015, Stefan Dumont : Lien
  • TAPAS Project, Visualize, Store, and Share Your TEI : Lien
  • Moteur correspSearch (Stefan Dumont), plus de 50000 lettres publiées par 46 institutions académiques allemandes : Lien
  • L’édition numérique de correspondances; Guide méthodologique; Consortium Cahier, Huma-Num, Richard Walter et al., 2018 : Lien

La balise correspAction de l’en-tête correspDesc contient essentiellement les descriptions de la langue, de l’expéditeur et du destinataire d’une correspondance, des adresses. Des renseignements sur les messages précédents et suivants se trouvent dans correspContext et sont référencés soit au niveau des attributs, soit au niveau contenu de certaines balises. L’attribut ref utilisé dans note peut permettre l’identification sur le web de données d’une personne ou d’un lieu. L’incipit peut se trouver dans fileDesc > notesStmt > note (attribut type : incipit).

1.2 Exemple d’encodage

En-tête TEI (correspDesc), avec 2 actions (correspAction : sent, received), un contexte (correspContext : prev), une note (note : mentionned), (note : previous, next)

<correspDesc ref="">
 <correspAction type="sent">
  <persName>Adelbert von Chamisso</persName>
  <placeName>Vertus</placeName>
  <date when="1807-01-29"/>
 </correspAction>
 <correspAction type="received">
  <persName>Louis de La Foye</persName>
  <placeName>Caen</placeName>
  <date notBefore="1807-01-29" notAfter="1808">unknown</date>
 </correspAction>
 <correspContext>
  <ref type="prev" target="#CLF0102">
   Previous letter of 
   <persName>Chamisso</persName> to 
   <persName>de La Foye</persName>: 
   <date when="1807-01-16">16 January 1807</date>
  </ref>
 </correspContext>
 <note type="mentioned">
    <persName ref="http://viaf.org/viaf/24602065">Johann Wolfgang von  Goethe</persName>
    <placeName ref="http://www.geonames.org/2874225">Mainz</placeName>
    <bibl ref="http://viaf.org/viaf/186077286">Die Leiden des jungen Werthers</bibl>
    <name ref="urn:lsid:ipni.org:names:164558-3:1.1">Kalanchoe pinnata</name>
    <event from="1793-04-14" to="1793-07-23">Belagerung von Mainz</event>
 </note>
</correspDesc>

Exemple fictif de corps de texte en CMIF

<text type="letter">
<body>
<div type="writingSession" n="1">
 <head>Letter XIV: Miss Clarissa Harlowe to Miss Howe</head>
 <opener>
  <dateline>Thursday evening, March 2.</dateline>
 </opener>
 <p>On Hannah's depositing my long letter ...</p>
 <p>An interruption obliges me to conclude myself
   in some hurry, as well as fright, what I must ever be,</p>
 <closer>
  <salute>Yours more than my own,</salute>
  <signed>Clarissa Harlowe</signed>
 </closer>
 <postscript>
  <label>P.S.</label>
  <p>
  Be sure to check out the TAPAS Learn guide: <ref  target="http://tapasproject.org/tapas-learn/letters">"Letters"</ref> for an extended discussion of letters as an encoded document genre. If you have any questions about working with letters in the TEI not covered in our guides, <ref target="http://tapasproject.org/forums/letters">post to our forums!</ref>
  </p>
  </postscript>
</div>
</body>
</text>

1.3 Lettres en CMIF, exemples

  • Carl Maria von Weber an Johann Gänsbacher in Hagensdorf; Darmstadt, Montag, 24. September 1810 : Site Weber, HTML, TEI
  • Anders Sandøe Ørsted Kurze Biographie an August Wilhelm von Schlegel : Site Schlegel , HTML, TEI
  • TEI, P5: Guidelines for Electronic Text Encoding and Interchange : Lien
  • CMIF – Correspondence Metadata Interchange Format : Lien
  • Correspondence Metadata Interchange Format (CMIF) – Documentation : Lien

2. Messages et publications académiques avec schema

  • Hiérarchie complète des classes : Lien

L’ontologie schema comprend 1024 classes et 900 propriétés. Elles se trouve décrite de manière plus précise dans un autre article de ce blog. Les classes Message, EmailMessage, Manuscript, Book, Article héritent des propriétés des classes de rang supérieur. Une sélection d’éléments est ici proposée et numérotée. Des commentaires précisent les relations de tout à partie hasPart et isPartOf qui relient des classes de la hiérarchie dans les domaines de la communication, des archives, des bibliothèques et sciences de l’information.

Thing (description, identifier, image, name, sameAs, subjectOf / about, url)

  1. Action
  2. CreativeWork, une sélection de propriétés (about, abstract, audience, author, comment, creator, contributor, copyrightHolder, dateCreated, dateModified, datePublished, editor, genre, hasPart, inLanguage, isPartOf, keywords, license, locationCreated, publication, publisher, spatialCoverage, temporalCoverage, text, translationOfWork, translator, version)
  3. Event
  4. Intangible
  5. Organization (address, alumni, department, dissolutionDate, employee, founder, foundingDate, foundingLocation, funder, knowsAbout, location, logo, member, memberOf, numberOfEmployees). Description d’un organisme.
  6. Place
  7. Person (address, affiliation, alumniOf, award, birthDate, birthPlace, brand, deathDate, deathPlace, description, email, familyName, givenName, hasOccupation, homeLocation, honorificPrefix, honorificSuffix, identifier, image, jobTitle, knows, knowsAbout, knowsLanguage, memberOf, name, nationality, workLocation, worksFor). Description d’une personne auteur ou destinataire d’un message.

3. L’ontologie SIOC

  • SIOC Core Ontology Specification, W3C, 2007 : Lien
  • Sur rdfs.org révision 1.36 : Lien
  • Les types SIOC (rdf) : Lien
  • Sur wikipedia.en : Lien

Semantically-Interlinked Online Communities (SIOC) vise à modéliser les fonctionnement des blogs, forums et listes de discussions. L’ontologie créée à partir de 2004 par John Breslin and Uldis Bojars s’appuie sur FOAF et de Dublin Core. Deux extensions viennent spécifier des classes supplémentaires. La hiérarchie sous la classe racine Community se décline ainsi :

  • Container (container_of, has_host, has_parent, has_subcriber, id, last_item_date). Une hiérarchie de conteneur peut être établie. Les conteneurs contiennent des items.
    • Forum (feed, has_moderator, id, last_activity_date)
    • Thread (feed, id, last_activity_date)
  • Item (about, addressed_to, attachment, content, delivered_at, earlier_version, embeds_knowledge, generator, has_container, has_creator, has_discussion, has_reply, id, ip_address, last_activity_date)
  • UserAccount (account_of, administrator_of, avatar, creator_of, email, email_sha1, feed, follows, has_modifier, has_owner, id, ip_adress, last_activity_date)
  • Space (dcterms:partOf (space_of), has_usergroup, id). Lieu de stockage des données, par exemple sur un serveur, dans un système de fichiers local.
    • Site (feed, has_administrator, host_of, id, ip_address, last_activity_date). Espace accessible via le web.
  • Role (function_of, has_function, has_scope, id)
  • Usergroup (has_member, id, last_activity_date)

4. Vers l’ontologie Message ?

Sortes de communications interpersonnelles, les lettres papier et les messages électroniques présentent de constitutives différences en matière de mode d’acheminement, de rapidité de transport et de divulgation. De nombreuses similitudes existent également, si bien qu’une même information peut être transmise par messagerie, par SMS ou bien au moyen d’une lettre papier traditionnelle. Ce n’est bien souvent affaire que de style et de stylet, d’époque et de circonstances d’envoi, de préoccupations formelles et juridiques également.

Un même jeu de métadonnées est susceptible de décrire une bonne partie des caractéristiques des lettres et messages électroniques une fois que ceux-ci sont archivés. Des sortes de message électronique sont un e-mail, la réaction à un article du web ou bien la participation à une liste de discussion. L’ambition de cette théorie qui se concrétisera peut être un jour est de se montrer aussi générale que possible, tout en fournissant des exemples concrets d’application. L’ontologie Message envisage d’étendre l’ontologie BIBO. Elle s’inspire de TEI, Schema, Wikidata, SIOC et est construite afin de modéliser tout corpus de correspondance papier, de messages électroniques ou papyrus 😉 édité dans un cadre académique.

4.1 Arbre des classes de l’ontologie Message

Les corpus sont constitués d’items. Des propriétés rendent possible la description des items catégorisés en classes. Dans Message, un item appartient à une seule classe et il hérite des propriétés des classes hiérarchiquement supérieures. Des alignements avec Wikidata (numéro de classe, ex : Q35120), Cidoc-CRM version 6.2 (numéro de classe, ex : E1), schema.org version 2.0 (sch), Dublin Core (dc), FOAF (foaf) sont proposés de même que des relations d’équivalence du nom de la classe, notées avec le signe égal. La hiérarchie des classes de Message est la suivante :

Thing, (Q35120, E1, sch), niveau racine de Message, = entity

  • 1. Agent (Q24229398, E39, sch, dc, foaf), classe agglutinante, = actor. Bibo ne détaille pas cette classe.
    • 1.1 Person (Q215627, E21, sch, foaf) : auteur ou destinataire d’une correspondance, auteur ou contributeur d’une édition, d’une communication, d’un email, d’un message.
  • 2. Document (Q49848, sch, foaf) = information ressource = CreativeWork
    • 2.1 Message (Q628523, sch) (header – title, objet, expéditeur, destinataire, adresse -, body – opener, p, closer, postscript -)
      • Lettre (Q133492) = courier = mail item (courrier, lettre, carte postale, carte de vœux)
      • Message électrique (télégraphe, télétype, fax)
        1. Message papier numérisé
      • EmailMessage (Q30170439, sch) (e-mail)
        1. header (adresse, destinataire)
        2. Corps du message
      • Message téléphonique (SMS, MMS)
      • Message sur liste de diffusion, chat
      • Information d’acheminement ?
        1. PostalAddress (Q319608, sch)
        2. PostageStamp (, )
        3. emailAdress ()
      • Document attaché (enveloppe, image, texte)

… rattaché

  • 2. Document
    • 2.1 Transcription
      • Transcription automatique
      • Transcription révisée
      • Transcription annotée
    • 2.2 Traduction
      • Traduction automatique
      • Traduction révisée
      • Traduction annotée
    • 2.3 Livre
    • 2.4 Article
      • Article académique
      • Article de dictionnaire
      • Article du web
        1. Post de blog (BlogPosting)
        2. Post sur forum de discussion (DiscussionForumPosting)
    • 2.5 Image
      • Photographie
      • Gravure
      • Dessin
      • Peinture
      • Carte
    • 2.6 Vidéo
    • 2.7 Fiche d’information
      1. Fiche d’un fichier physique
      2. Ligne d’un tableur
  • Séries, collections, ensemble d’éléments répétés
    1. Journal, périodique (Periodical)
    2. Livre en série (MultiVolumeBook)
    3. Dictionnaire papier ou électronique
    4. Fond d’archives
    5. Fichier
      • Fichier physique
      • Listing
      • Tableau sur tableur
    6. Site web
    7. Liste de diffusion
  • Événement (lieu, date, participants)
    1. Colloque
    2. Conférence
    3. Atelier

4.2 Propriétés de Personne (auteur ou destinataire d’un message, auteur d’une transcription, traduction, article, livre, conférence, atelier)

  • identifiants (VIAF, IdRef, numéro)
  • nom, prénom (foaf, dc:title)
  • membre de (dc:memberOf) – lien vers 4.3, 4.4
  • date (dc:date)
  • sujet (dc:subject)

4.4 Propriétés d’Organisme (dont l’auteur, le destinataire ou le groupe d’édition sont membres)

  • identifiant (VIAF, IdRef)
  • nom (dc:title)
  • type (dc:type)
  • date (dc:date)
  • sujet (dc:subject)

4.5 Propriétés de Message papier

  • Identifiant (dc:identifier)
  • Titre de la lettre, donné par l’éditeur de la correspondance (dc:title)
  • Type (dc:type)
    • Lettre, Télégramme, Carte postale,
    • Graffiti
    • Courrier électronique
    • SMS
    • Message sur un réseau social (facebook, twitter)
    • Message sur une liste de diffusion
  • Description : Description physique et intellectuelle du document, support et plis, manuscrit, tapuscrit, nombre de pièces attachées, sommaire (dc:description)
  • Auteur (dc:creator)
  • Langue (dc:language)
  • Date d’écriture (dc:date)
  • Destinataire (bibo:recipient, dcterms:audience)
  • Sujet (dc:subject)
  • Personnes citées
  • Nombre de pages
  • Incipit (lettre:incipit)
  • Lieu d’écriture
  • Date d’expédition
  • Lieu d’expédition
  • Date de réception
  • Lieu de réception
  • Destinataire secondaire, copie carbone
  • Destinataire caché, copie masquée
  • Lettre ou message précédent
  • Lettre ou message suivant
  • Lieu d’archive
  • Support (papier, papyrus, tablette d’argile, post-it, mur?, téléphone, électronique)

4.6 Propriétés de Transcription

La transcription d’une correspondance peut être faite en respectant le format TEI et les balises décrites dans TEI CMIF letter. En-tête du document (header) :

  • Identifiant du document transcrit (dc:identifier)
  • Identifiant de la transcription, version
  • Transcripteur (dc:creator)
  • Bibliographie
  • Langue
  • Alphabet
  • Type de transcription (word, LaTex, TEI)

4.7 Propriétés de Transcription annotée

  • (dc:format : word, LaTex, TEI, HTML, Markdown, CriticMarkup)

4.8 Corps du message

Voir TEI CMIF.

  • Identifiant (dc:identifier)
  • Date
  • Salutations
  • Corps du texte
  • Illustration
  • Fichier attaché (lien 4.7)
  • Sommaire

4.9 Livre

  • Identifiant (https://www.wordcat.org)

Références

  • Site officiel BIBO : Lien
  • Bibliographic-Ontology-BIBO, fichier owl : Lien

1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *