Métadonnées pour éditer une correspondance

[en cours d’élaboration, sujet à changements…] Deux possibilités existent pour éditer un corpus de correspondance. Avec l’édition papier, tout est classé, analysé et ne bougera plus jusqu’à la prochaine – et hypothétique – édition. L’édition numérique des correspondances rend possible l’ajout de nouveaux documents.

Ceci étant précisé, il convient de définir le niveau de traitement que vous souhaitez apporter à votre corpus d’échanges épistolaires. De la plus élémentaire transcription sous traitement de texte avec Word ou LaTex à la plus exigeante transcription en TEI, voire à l’extraction d’entités nommées à l’aide d’un modèle pré-entrainé, plusieurs niveaux d’analyses sont possibles. À la transcription s’ajoutent possiblement une traduction, l’édition d’un article muni d’un apparat critique, bref la production d’une expression papier de l’œuvre originale qui vient en doublon de l’expression numérique.

Parce que les lettres sont le signe de relations humaines multiples, des corpus de correspondances d’une même époque s’avèrent fréquemment interconnectés. Le respect de normes partagées est susceptible de présenter des avantages. Des échanges et des interrogations croisées deviennent possibles. L’interrogation simultanée de plusieurs corpus peut apporter un éclairage inédit sur une époque, un milieu socio-culturel.

Parmi les normes actuellement peu nombreuses relatives aux correspondances papiers, le format CMIF (Correspondance Metadata Interchange Format) de la TEI (Text Encoding Initiative) dédié à la description des lettres émerge en 2015. Un premier moteur de recherche correspSearch donne accès à plusieurs dizaines de milliers de lettres du domaine de la littérature en langue allemande. L’écosystème comprend des entrepôts et un moissonneur.

Une première partie de ce billet décrit le format TEI CMIF et propose des liens vers des ressources. Les archives renseignent en EAD leurs métadonnées et peuvent les échanger à l’aide du format MODS. Les correspondances sont prises en compte : Lien

Des ontologies du web de données concernent le sujet. L’ontologie propriétaire du Getty Research Institute The Art & Architecture Thesaurus (AAT) définit le genre Correspondence par “Any forms of addressed and written communication sent and received, including letters, postcards, memorandums, notes, telegrams, or cables” : Lien, Exemple d’usage en MODS

L’ontologie ouverte schema spécifie les classes Message, EmailMessage, Manuscript. Les ontologies Wikidata et DBPedia dérivées de Wikipedia contiennent la classe Letter. Des ontologies plus spécifiques comme BIBO (The Bibliographic Ontology) ou FaBiO (the FRBR-aligned Bibliographic Ontology) peuvent inspirer l’architecture d’une ontologie dédiée à l’édition d’une correspondance. Quelle structure donner aux métadonnées d’un correspondance quelconque ? Convient-il d’employer une seule ou bien au contraire une suite d’ontologies ?

Une ontologie nommée Message, susceptible de décrire les correspondances et communications interpersonnelles que le support soit papier ou électronique est finalement ébauchée en dernière partie.

Plan

  1. Le format TEI Correspondance Metadata Interchange Format (CMIF)
  2. Messages et publications académiques avec schema
  3. Le format d’échange MODS

1. Le format TEI Correspondance Metadata Interchange Format (CMIF)

C’est en 1987, autour du format SGML que débutent les travaux de la Text Encoding Initiative (TEI). CMIF correspond à une initiative plus récente visant à encoder de manière formelles les grandes correspondances papiers des siècles derniers dans le cadre normatif de TEI.

1.1 Spécifications de correspDesc

Le manuel “Encoding Correspondence” résume les discussions de l’atelier “Challenges of Correspondence Encoding” organisé par le groupe SIG TEI Correspondence et CLARIN-D à l’Académie des sciences de Berlin-Brandebourg en octobre 2018.

  • Spécifications en-tête : 2 The TEI Header > 2.4 The Profile Description > 2.4.6 Correspondence Description de CorrespDesc : Lien
  • Spécifications corps du texte : 4 Default Text Structure > 4.2.2 Openers and Closers, salutations : Lien
  • Site TEI : TEI Correspondence SIG GitHub, Special Interest Group Correspondence of the Text Encoding Initiative (TEI); Peter Stadler, Marcel Illetschko, and Sabine Seifert; CMIF, encoding-correspondence, LOD, correspDesc
  • Text Encoding Initiative (TEI) Correspondence Special Interest Group (SIG) : Lien
  • TEI Correspondence SIG Wiki : Lien
  • TEI-CORRESP-SIG@LISTSERV.BROWN.EDU : Lien
  • Encoding Correspondence, A Manual for Encoding Letters and Postcards in TEI-XML and DTABf, Stefan Dumont, Susanne Haaf, Sabine Seifert : Lien
  • Towards a Model for Encoding Correspondence in the TEI: Developing and Implementing <correspDesc>, 2016, Peter Stadler, Marcel Illetschko and Sabine Seifert : Lien
  • Perspectives of the further development of the Correspondence Metadata Interchange Format (CMIF), 2015, Stefan Dumont : Lien
  • correspSearch – Connecting Scholarly Editions of Letters, 2015, Stefan Dumont : Lien
  • TAPAS Project, Visualize, Store, and Share Your TEI : Lien
  • Moteur correspSearch (Stefan Dumont), plus de 50000 lettres publiées par 46 institutions académiques allemandes : Lien
  • L’édition numérique de correspondances; Guide méthodologique; Consortium Cahier, Huma-Num, Richard Walter et al., 2018 : Lien

La balise correspAction de l’en-tête correspDesc contient essentiellement les descriptions de la langue, de l’expéditeur et du destinataire d’une correspondance, des adresses. Des renseignements sur les messages précédents et suivants se trouvent dans correspContext et sont référencés soit au niveau des attributs, soit au niveau contenu de certaines balises. L’attribut ref utilisé dans note peut permettre l’identification sur le web de données d’une personne ou d’un lieu. L’incipit peut se trouver dans fileDesc > notesStmt > note (attribut type : incipit).

1.2 Exemple d’encodage

En-tête TEI (correspDesc), avec 2 actions (correspAction : sent, received), un contexte (correspContext : prev), une note (note : mentionned), (note : previous, next)

<correspDesc ref="">
 <correspAction type="sent">
  <persName>Adelbert von Chamisso</persName>
  <placeName>Vertus</placeName>
  <date when="1807-01-29"/>
 </correspAction>
 <correspAction type="received">
  <persName>Louis de La Foye</persName>
  <placeName>Caen</placeName>
  <date notBefore="1807-01-29" notAfter="1808">unknown</date>
 </correspAction>
 <correspContext>
  <ref type="prev" target="#CLF0102">
   Previous letter of 
   <persName>Chamisso</persName> to 
   <persName>de La Foye</persName>: 
   <date when="1807-01-16">16 January 1807</date>
  </ref>
 </correspContext>
 <note type="mentioned">
    <persName ref="http://viaf.org/viaf/24602065">Johann Wolfgang von  Goethe</persName>
    <placeName ref="http://www.geonames.org/2874225">Mainz</placeName>
    <bibl ref="http://viaf.org/viaf/186077286">Die Leiden des jungen Werthers</bibl>
    <name ref="urn:lsid:ipni.org:names:164558-3:1.1">Kalanchoe pinnata</name>
    <event from="1793-04-14" to="1793-07-23">Belagerung von Mainz</event>
 </note>
</correspDesc>

Exemple fictif de corps de texte en CMIF

<text type="letter">
<body>
<div type="writingSession" n="1">
 <head>Letter XIV: Miss Clarissa Harlowe to Miss Howe</head>
 <opener>
  <dateline>Thursday evening, March 2.</dateline>
 </opener>
 <p>On Hannah's depositing my long letter ...</p>
 <p>An interruption obliges me to conclude myself
   in some hurry, as well as fright, what I must ever be,</p>
 <closer>
  <salute>Yours more than my own,</salute>
  <signed>Clarissa Harlowe</signed>
 </closer>
 <postscript>
  <label>P.S.</label>
  <p>
  Be sure to check out the TAPAS Learn guide: <ref  target="http://tapasproject.org/tapas-learn/letters">"Letters"</ref> for an extended discussion of letters as an encoded document genre. If you have any questions about working with letters in the TEI not covered in our guides, <ref target="http://tapasproject.org/forums/letters">post to our forums!</ref>
  </p>
  </postscript>
</div>
</body>
</text>

1.3 Lettres en CMIF, exemples

  • Carl Maria von Weber an Johann Gänsbacher in Hagensdorf; Darmstadt, Montag, 24. September 1810 : Site Weber, HTML, TEI
  • Anders Sandøe Ørsted Kurze Biographie an August Wilhelm von Schlegel : Site Schlegel , HTML, TEI
  • TEI, P5: Guidelines for Electronic Text Encoding and Interchange : Lien
  • CMIF – Correspondence Metadata Interchange Format : Lien
  • Correspondence Metadata Interchange Format (CMIF) – Documentation : Lien
  • Exploitation d’un corpus en TEI avec le système de gestion de base de données XML natif BaseX : Lien, Site officiel : Lien

2. Messages et publications académiques avec schema

  • Hiérarchie complète des classes : Lien

L’ontologie schema comprend 1024 classes et 900 propriétés. Elles se trouve décrite de manière plus précise dans un autre article de ce blog. Les classes Message, EmailMessage, Manuscript, Book, Article héritent des propriétés des classes de rang supérieur. Une sélection d’éléments est ici proposée et numérotée. Des commentaires précisent les relations de tout à partie hasPart et isPartOf qui relient des classes de la hiérarchie dans les domaines de la communication, des archives, des bibliothèques et sciences de l’information.

Thing (description, identifier, image, name, sameAs, subjectOf / about, url)

  1. Action
  2. CreativeWork, une sélection de propriétés (about, abstract, audience, author, comment, creator, contributor, copyrightHolder, dateCreated, dateModified, datePublished, editor, genre, hasPart, inLanguage, isPartOf, keywords, license, locationCreated, publication, publisher, spatialCoverage, temporalCoverage, text, translationOfWork, translator, version)
  3. Event
  4. Intangible
  5. Organization (address, alumni, department, dissolutionDate, employee, founder, foundingDate, foundingLocation, funder, knowsAbout, location, logo, member, memberOf, numberOfEmployees). Description d’un organisme.
  6. Place
  7. Person (address, affiliation, alumniOf, award, birthDate, birthPlace, brand, deathDate, deathPlace, description, email, familyName, givenName, hasOccupation, homeLocation, honorificPrefix, honorificSuffix, identifier, image, jobTitle, knows, knowsAbout, knowsLanguage, memberOf, name, nationality, workLocation, worksFor). Description d’une personne auteur ou destinataire d’un message.

3. L’ontologie SIOC

  • SIOC Core Ontology Specification, W3C, 2007 : Lien
  • Sur rdfs.org révision 1.36 : Lien
  • Les types SIOC (rdf) : Lien
  • Sur wikipedia.en : Lien

Semantically-Interlinked Online Communities (SIOC) vise à modéliser les fonctionnement des blogs, forums et listes de discussions. L’ontologie créée à partir de 2004 par John Breslin and Uldis Bojars s’appuie sur FOAF et de Dublin Core. Deux extensions viennent spécifier des classes supplémentaires. La hiérarchie sous la classe racine Community se décline ainsi :

  • Container (container_of, has_host, has_parent, has_subcriber, id, last_item_date). Une hiérarchie de conteneur peut être établie. Les conteneurs contiennent des items.
    • Forum (feed, has_moderator, id, last_activity_date)
    • Thread (feed, id, last_activity_date)
  • Item (about, addressed_to, attachment, content, delivered_at, earlier_version, embeds_knowledge, generator, has_container, has_creator, has_discussion, has_reply, id, ip_address, last_activity_date)
  • UserAccount (account_of, administrator_of, avatar, creator_of, email, email_sha1, feed, follows, has_modifier, has_owner, id, ip_adress, last_activity_date)
  • Space (dcterms:partOf (space_of), has_usergroup, id). Lieu de stockage des données, par exemple sur un serveur, dans un système de fichiers local.
    • Site (feed, has_administrator, host_of, id, ip_address, last_activity_date). Espace accessible via le web.
  • Role (function_of, has_function, has_scope, id)
  • Usergroup (has_member, id, last_activity_date)

4. Vers l’ontologie Message ?

Sortes d’oeuvre personnelle et de communications interpersonnelles, les lettres papier et les messages électroniques présentent des différences évidentes mais aussi de nombreuses similitudes. Des messages contenant la même information peuvent être transmise par messagerie, par SMS ou bien au moyen d’une lettre papier traditionnelle. Ce n’est bien souvent affaire que de style et de stylet, d’époque et de circonstances d’envoi, de préoccupations formelles et juridiques également.

Un même jeu de métadonnées est susceptible de décrire une bonne partie des caractéristiques des lettres et messages électroniques une fois que ceux-ci sont archivés. L’ontologie Message envisage d’étendre l’ontologie BIBO. Elle s’inspire de TEI, Schema, Wikidata, SIOC et est construite afin de modéliser tout corpus de correspondance papier, de messages électroniques ou papyrus 😉 édité dans un cadre académique.

(pas terrible, peut-être vaudrait il mieux s’inspirer de FRBR, Fabio et du concept WEMI. Une lettre ou un e-mail ne peuvent ils pas être considérés basiquement comme un document à diffusion limitée initialement, mais susceptible de trouver une nouvelle expression en étant publiée, et plusieurs manifestations “papier, électronique” ?)

4.1 Arbre des classes de l’ontologie Message

Les corpus sont constitués d’items. Des propriétés rendent possible la description des items catégorisés en classes. Dans Message, un item appartient à une seule classe et il hérite des propriétés des classes hiérarchiquement supérieures. Des alignements avec Wikidata (numéro de classe, ex : Q35120), Cidoc-CRM version 6.2 (numéro de classe, ex : E1), schema.org version 2.0 (sch), Dublin Core (dc), FOAF (foaf) sont proposés de même que des relations d’équivalence du nom de la classe, notées avec le signe égal. La hiérarchie des classes de Message est la suivante :

Thing, (Q35120, E1, sch), niveau racine de Message, = entity

  • 1. Agent (Q24229398, E39, sch, dc, foaf), classe agglutinante, = actor. Bibo ne détaille pas cette classe.
    • 1.1 Person (Q215627, E21, sch, foaf) : auteur ou destinataire d’une correspondance, auteur ou contributeur d’une édition, d’une communication, d’un email, d’un message.
  • 2. Document (Q49848, sch, foaf) = information ressource = CreativeWork
    • 2.1 Message (Q628523, sch) (header – title, objet, expéditeur, destinataire, adresse -, body – opener, p, closer, postscript -)
      • Lettre (Q133492) = courier = mail item (courrier, lettre, carte postale, carte de vœux)
      • Message électrique (télégraphe, télétype, fax)
        1. Message papier numérisé
      • EmailMessage (Q30170439, sch) (e-mail)
        1. header (adresse, destinataire)
        2. Corps du message
      • Message téléphonique (SMS, MMS)
      • Message sur liste de diffusion, chat
      • Information d’acheminement ?
        1. PostalAddress (Q319608, sch)
        2. PostageStamp (, )
        3. emailAdress ()
      • Document attaché (enveloppe, image, texte)

… rattaché

  • 2. Document
    • 2.1 Transcription
      • Transcription automatique
      • Transcription révisée
      • Transcription annotée
    • 2.2 Traduction
      • Traduction automatique
      • Traduction révisée
      • Traduction annotée
    • 2.3 Livre
    • 2.4 Article
      • Article académique
      • Article de dictionnaire
      • Article du web
        1. Post de blog (BlogPosting)
        2. Post sur forum de discussion (DiscussionForumPosting)
    • 2.5 Image
      • Photographie
      • Gravure
      • Dessin
      • Peinture
      • Carte
    • 2.6 Vidéo
    • 2.7 Fiche d’information
      1. Fiche d’un fichier physique
      2. Ligne d’un tableur
  • Séries, collections, ensemble d’éléments répétés
    1. Journal, périodique (Periodical)
    2. Livre en série (MultiVolumeBook)
    3. Dictionnaire papier ou électronique
    4. Fond d’archives
    5. Fichier
      • Fichier physique
      • Listing
      • Tableau sur tableur
    6. Site web
    7. Liste de diffusion
  • Événement (lieu, date, participants)
    1. Colloque
    2. Conférence
    3. Atelier

4.2 Propriétés de Personne (auteur ou destinataire d’un message, auteur d’une transcription, traduction, article, livre, conférence, atelier)

  • identifiants (VIAF, IdRef, numéro)
  • nom, prénom (foaf, dc:title)
  • membre de (dc:memberOf) – lien vers 4.3, 4.4
  • date (dc:date)
  • sujet (dc:subject)

4.4 Propriétés d’Organisme (dont l’auteur, le destinataire ou le groupe d’édition sont membres)

  • identifiant (VIAF, IdRef)
  • nom (dc:title)
  • type (dc:type)
  • date (dc:date)
  • sujet (dc:subject)

4.5 Propriétés de Message papier

  • Identifiant (dc:identifier)
  • Titre de la lettre, donné par l’éditeur de la correspondance (dc:title)
  • Type (dc:type)
    • Lettre, Télégramme, Carte postale,
    • Graffiti
    • Courrier électronique
    • SMS
    • Message sur un réseau social (facebook, twitter)
    • Message sur une liste de diffusion
  • Description : Description physique et intellectuelle du document, support et plis, manuscrit, tapuscrit, nombre de pièces attachées, sommaire (dc:description)
  • Auteur (dc:creator)
  • Langue (dc:language)
  • Date d’écriture (dc:date)
  • Destinataire (bibo:recipient, dcterms:audience)
  • Sujet (dc:subject)
  • Personnes citées
  • Nombre de pages
  • Incipit (lettre:incipit)
  • Lieu d’écriture
  • Date d’expédition
  • Lieu d’expédition
  • Date de réception
  • Lieu de réception
  • Destinataire secondaire, copie carbone
  • Destinataire caché, copie masquée
  • Lettre ou message précédent
  • Lettre ou message suivant
  • Lieu d’archive
  • Support (papier, papyrus, tablette d’argile, post-it, mur?, téléphone, électronique)

4.6 Propriétés de Transcription

La transcription d’une correspondance peut être faite en respectant le format TEI et les balises décrites dans TEI CMIF letter. En-tête du document (header) :

  • Identifiant du document transcrit (dc:identifier)
  • Identifiant de la transcription, version
  • Transcripteur (dc:creator)
  • Bibliographie
  • Langue
  • Alphabet
  • Type de transcription (word, LaTex, TEI)

4.7 Propriétés de Transcription annotée

  • (dc:format : word, LaTex, TEI, HTML, Markdown, CriticMarkup)

4.8 Corps du message

Voir TEI CMIF.

  • Identifiant (dc:identifier)
  • Date
  • Salutations
  • Corps du texte
  • Illustration
  • Fichier attaché (lien 4.7)
  • Sommaire

4.9 Livre

  • Identifiant (https://www.wordcat.org)

Références

  • Site officiel BIBO : Lien
  • Bibliographic-Ontology-BIBO, fichier owl : Lien
  • FaBiO, the FRBR-aligned Bibliographic Ontology : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *