Les ontologies informatiques : des outils pour donner du sens aux données

15 180 mots, temps de lecture 80 minutes.

Le web sémantique, ou web de données liées

Les ontologies informatiques constituent une des notions clé du web sémantique. Encore appelées « vocabulaires » ou bien « schémas » (d’une base de donnée), ces sortes de dictionnaires de classes et de propriétés permettent de structurer de manière normalisée les données. Leurs fonctions se montrent vastes et variées. Les ontologies peuvent servir à nommer de manière standard les colonnes d’un tableau de données, à normaliser les échanges d’informations entre robots d’indexation et serveurs web, à interroger à l’aide de SPARQL des bases de données sémantiques, à structurer de manière normalisée les informations présentes dans un dictionnaire, à organiser des catalogues de bibliothèques, des fonds d’archives, etc. Cette polyvalence fonctionnelle n’est clairement apparue que de manière progressive, au gré de recherches et essais effectués à partir des années 2010 environ. Le World Wide Web Consortium (W3C) a joué un rôle important, mais non exclusif, dans la mise au point des formats du domaines. Son rôle fut crucial pour RDF (Resource Description Framework) et OWL (Ontology Web Language) notamment. Ce billet de blog passe en revue plusieurs ontologies fréquemment utilisées.

La première partie liste les ontologies dédiées à l’optimisation du référencement (SEO – Search Engine Optimization). Les métadonnées prises en compte par les moteurs généralistes tels que Google, Bing, etc, se limitent à Dublin Core, Open Graph (Meta), Twitter Cards (X) et Schema.org (Google). Du côté des éditeurs de sites, les métadonnées à transmettre aux moteurs peuvent être localisées au choix des développeurs dans l’en-tête des pages HTML, ou bien dans le corps du texte. Les sérialisations alors possibles incluent Microdata, RDFa (Resource Description Framework in Attributes), JSON-LD (JavaScript Object Notation for Linked Data). L’optimisation du référencement facilite de manière indirecte les interactions entre l’auteur d’un article et le public cible. Un signalement favorable dans la page des résultats des moteurs de recherche est attendu en retour des efforts de référencement.

La seconde partie rassemble des ontologies dédiées à la structuration des connaissances communes. Aussi généralistes et vastes dans leurs capacité descriptive que Schema.org, les ontologies DBO de DBpedia et WDT de Wikidata se distinguent par leur usage pour motoriser plusieurs bases sémantiques encyclopédiques. Elles permettent de décrire de deux manières différentes les mêmes informations factuelles retrouvées dans les Infobox des versions linguistiques de Wikipédia. La base Wikidata se distingue par son aspect participatif. Tout le monde peut partager ses propres données, sans nécessité d’avoir à écrire un article dans Wikipédia. Développé et maintenu par le W3C (World Wide Web Consortium), le vocabulaire SKOS (Simple Knowledge Organization System) permet de structurer de manière normalisée des vocabulaires contrôlés (dictionnaires, thésaurus documentaires, plans de classement). SKOS se montre fréquemment utilisé dans le monde de l’ingénierie des connaissances.

L’auto-description se montre inhérente de l’esprit du web. La troisième partie rassemble les ontologies spécifiquement dédiées à la description fine des personnes, des familles, des groupes et des organisations. Tout le monde peut, s’il le souhaite, se décrire sommairement sur une page du web, présenter ses activités publiques ou celles de groupes et d’organisations pour lesquelles une promotion est souhaitée. Cependant, pour les historiens et les généalogistes, les descriptions peuvent se montrer quelque peu différentes de celles d’une simple carte de visite. Des ontologies comme « BIO » ou « Relationships » permettent de normaliser la saisie de ce genre d’information.

La quatrième partie présente les ontologies des bibliothèques. Les vocabulaires dérivés du modèle entité-relation FRBR (Functional Requirements for Bibliographic Records / Spécifications fonctionnelles des notices bibliographiques) ont, depuis les années 1990, permis de renouveler en grande partie les méthodes et techniques d’élaboration des catalogues, de même que la compréhension fine des données bibliographiques. Plusieurs ontologies permettent d’organiser l’information bibliographique relative aux livres, périodiques, disques, documents d’archives et autres objets culturels fabriqués de manière industrielle, en une suite de classes (Œuvre, Expression, Manifestation, Item), liées entre elles par des relations. Le modèle prend également en compte la description des auteurs (personnes, familles, groupes, organisations), le code de classement de l’artefact en bibliothèque (Dewey, CDU), la cote, les thèmes (le sujet). Au-delà du modèle de donnée, des règles de catalogages renouvelées doivent être pratiquées pour que l’ensemble présente un aspect cohérent. En France, cet effort paarticulier est nommé Transition bibliographique.

La cinquième partie expose des ontologies développées pour le monde des archives, des musées, de l’archéologie et de l’histoire. La logique des archives et des musées se distingue formellement de celle des bibliothèques. Les artefacts et documents préservés dans ce genre d’institution ne sont pas remplaçables et ne peuvent être sortis des archives. Ils ne peuvent qu’être consultés sur place ou numérisés. En sixième partie, des ontologies des métiers de la biologie, de la santé, de la médecine, du transport, sont présentées. Quelques uns des logiciels dédiés à la manipulation des ontologies sont aussi listés. La toute dernière partie, ambitieuse et inachevée est constituée d’un billet séparé, sur l’histoire de l’ontologie, sur l’ontologie des ontologies, depuis l’ontologie des Anciens jusqu’aux ontologies informatiques des années 1980.

Sommaire

  1. Optimiser le référencement
    • 1.1 Dublin Core (dc, dcterms)
    • 1.2 Open Graph (og)
    • 1.3 Twitter Cards
    • 1.4 Schema.org (schema)
  2. Structurer les connaissances communes : SKOS, DBpedia ontology et Wikidata type
    • 2.2 The DBpedia Ontology (dbpedia-owl)
    • 2.3 Wikidata type
    • 2.2 SKOS (dictionnaires, thésaurus, taxonomie)
  3. Décrire les personnes, organisations et relations sociales
    • 3.1 An Ontology for vCards (vcard)
    • 3.2 Friend of a friend (FOAF)
    • 3.3 A vocabulary for biographical information (bio)
    • 3.4 Relations interpersonnelles : Relationship (rel)
    • 3.5 Semantically-Interlinked Online Communities (sioc)
    • 3.6 Organization (org)
    • 3.7 La provenance avec PROV-O (prov)
  4. Structurer un catalogue : les métiers des bibliothèques
    • 4.1 The Bibliographic Ontology (BIBO)
    • 4.2 Efforts de modélisation des données bibliographiques
      • 4.2.1 FRBR, FRBR-aligned Bibliographic Ontology
      • 4.2.2 De « The Library Reference Model (LRM) » à « Ressource Description & Access (RDA) »
      • 4.2.3 RDA-FR et la transition bibliographique (2015 – 2022)
    • 4.3 Ontologies apparentées à FRBR
      • 4.3.1 Expression of Core FRBR Concepts in RDF (FRBR Core)
      • 4.3.2 FRBR-aligned Bibliographic Ontology (FaBiO)
      • 4.3.3 Autres ontologies dérivées de FRBR
    • 4.4 Relators (mrel)
    • 4.5 The Medieval Manuscript Ontology (MeMO)
    • 4.6 Description des performances et œuvres musicales
      • 4.6.1 Event (event)
      • 4.6.2 L’ontologie Doremus (mus)
      • 4.6.3 The Music Ontology (mo)
      • 4.6.4 Performed Music Ontology (pmo)
    • 4.7 CiTO, the Citation Typing Ontology
    • 4.8 D’autres ontologies pour les bibliothèques et l’édition
  5. Organiser les collections : les métiers des archives, des musées, de l’archéologie, de l’histoire
    • 5.1 CIDOC-CRM
    • 5.2 Records in Context (RiC)
    • 5.3 Autres ontologies et outils des archives et de l’histoire
  6. Autres métiers
    • 6.1 Biologie et santé
    • 6.2 Transports
    • 6.3 Données de la recherche : DCAT, Data Catalog vocabulary
  7. Quelques outils du web de données
    • 7.1 Répertoires d’ontologies
    • 7.2 Visualiseurs, éditeurs d’ontologies
    • 7.3 Triplestores, gestionnaires de contenus
  8. De l’ontologie en philosophie aux ontologies du web sémantique (1956 -)

1. Optimisation du référencement des sites sur le web

Le SEO (Search Engine Optimization) constitue une des pratiques du marketing numérique. Il s’agit de présenter le plus avantageusement possible un site dans la page des résultats des moteurs de recherche. Les webmestres à la recherche d’audience se montrent particulièrement intéressés par le SEO. Les choix possibles se montrent imposés par les moteurs de recherche eux-mêmes, notamment Google, dont les parts d’audience dépassent actuellement les 80%. Quatre ontologies utiles pour le référencement sont ici présentées.

1.1 Dublin Core

  • Espaces de nom (3 ontologies différentes) :
    • dc : Dublin Core simple 15 propriétés initialement définies : « http://purl.org/dc/elements/1.1/ »
    • dcterms : Dublin Core qualifié : « http://purl.org/dc/terms/ »
    • dctype : Classes des objets décrits par dcterms (Collection, Dataset, Image, etc) : « http://purl.org/dc/dcmitype/ »
  • Dans Wikidata : Q624610
  • Sur LOV (Linked Open Vocabularies) : dce, dcterms, dctype
  • Dublin Core, à la BnF : Lien
  • DCMI Metadata Terms, 2020 : Lien
  • Dublin Core™ User Guide > Publishing Metadata : Lien
  • Stuart Weibel. Dublin Core at 21. Reminiscence and Reflections. OCLC Research (retired), IFLA 2016, OCLC : Lien

Initialement crée en 1995 à Dublin (Ohio), lieu du siège de l’OCLC, Dublin Core est de nos jours maintenu par le DCMI (Dublin Core Metadata Initiative), un organisme à but non lucratif dont le siège se trouve à New-York. Dans Dublin Core, le terme Core signifie « cœur », « noyau » ou bien encore « de base ». Le vocabulaire se montre nativement conçu pour être étendu à l’aide d’autres ontologies. Dans sa première version « dc », Dublin Core constitue une simple liste de 15 propriétés générales susceptible de décrire certaines des pages du web. La seconde version « dcterms » se montre plus proche d’une véritable ontologie, avec distinction des classes d’objets susceptibles d’être décrits.

Des groupes de travail ouverts discutent au DCMI des divers usages, maintiennent et font évoluer des formats cœur et secondaires. Tous les deux fréquemment utilisés, Dublin Core simple (DC: 15 propriétés nommés éléments) et Dublin Core qualifié (6 propriétés supplémentaires, 34 sous-propriétés ou raffinement) sont distingués. Aucune propriété n’est obligatoire. Toutes peuvent être renseignées autant de fois que nécessaire.

a/ Propriétés simples et affinées

Dans la liste suivant, les propriétés 1 à 15 sont partagées entre DC et DCTERMS. Les propriétés affinées, entre parenthèses et 16 à 22 se montrent spécifiques de DCTERMS. Une « propriété affinée » peut être considérée comme une sous-propriété. Elle apporte des précisions supplémentaires, comparativement à la propriété générique.

  1. contributor
  2. coverage > (spatial – pays en ISO 3166-1, temporal)
  3. creator (préféré à author)
  4. date > (available, created, dateAccepted, dateCopyrighted, dateSubmitted, issued – date de publication, modified, valid)
  5. description > (abstract, tableOfContents)
  6. format > (extent, medium)
  7. identifier > (bibliographicCitation)
  8. language (ISO 639-2, 639-3, RFC1766)
  9. publisher
  10. relation > (conformsTo, hasFormat / isFormatOf, hasPart / isPartOf, hasVersion / isVersionOf, isReferencedBy / references, isReplacedBy / replaces, isRequiredBy / requires)
  11. rights (accessRights, license)
  12. source
  13. subject
  14. title > (alternative)
  15. type
  16. audience > (mediator, educationLevel)
  17. provenance
  18. rightsHolder
  19. instructionalMethod
  20. accrualMethod
  21. accrualPeriodicity
  22. accrualPolicy

b/ Classes des objets

Les classes d’objets décrits sont spécifiées en valeur de Dublin Core type. Depuis 2010, un dictionnaire de 12 valeurs possibles est mis au point : le « DCMI Type Vocabulary ». Plusieurs types peuvent être spécifiés simultanément, par exemple Text (contrôlé dans DCMI Type Vocabulary) et aussi, de manière non contrôlée et en français, Article, Livre, Journal. La documentation officielle fournit des exemples. Les 12 valeurs standards du dictionnaire DCMI Type distinguent formellement le type texte (Text) image (Image) ou vidéo (MovingImage) :

Collection, Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text

c/ Affichage de DC dans l’en-tête HTML

Les valeurs des champs Dublin Core peuvent être affichées dans l’en-tête d’une page HTML en attribut de la balise « <meta name> ». Dès 1991, cette balise fut intégrée à HTML 2.0. L’exemple choisi correspond au code source recopié du Catalogue général de la BnF : une édition de Bilbo le Hobbit est publiée en français, en 2001 chez Glénat. L’en-tête du code source est le suivant :

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="fr">
	<head>
<!-- Metadonnee pour Zotero -->
<meta name="DC.identifier" scheme="URI" content="" />
<meta name="DC.title" content="Bilbo le Hobbit / J. R. R. Tolkien ; ill., David Wenzel ; adapt., Charles Dixon ; trad., Thierry Cailleteau" />
<meta name="DC.creator" content="Tolkien, John Ronald Reuel (1892-1973). Auteur du texte" />
<meta name="DC.contributor" content="Wenzel, David (1950-....). Illustrateur" />
<meta name="DC.contributor" content="Dixon, Charles (1954-....). Adaptateur" />
<meta name="DC.contributor" content="Cailleteau, Thierry (1959-2023). Traducteur" />
<meta name="DC.publisher" content="Glénat (Grenoble)" />
<meta name="DC.date" content="2001" />
<meta name="DC.description" content="Collection : Collection Le labyrinthe" />
<meta name="rft.isbn" content="2723436101" />
<meta name="DC.description" content="Code à barres commercial : EAN 9782723436106" />
<meta name="DC.format" content="133 p. : ill. en coul.,couv. et jaquette ill. en coul. ; 29 cm" />
<meta name="DC.language" content="fre" />
<meta name="DC.language" content="français" />
<meta name="DC.type" lang="fre" content="texte imprimé" />
<meta name="DC.type" lang="eng" content="printed text" />
<meta name="DC.type" lang="eng" content="text" />
<meta name="DC.rights" lang="fre" content="Catalogue en ligne de la Bibliothèque nationale de France" />
<meta name="DC.rights" lang="eng" content="French National Library online Catalog" />
  </head>
  <body>
  </body>
</html>

1.2 Open Graph (og)

  • Espaces de nom :
    • https://ogp.me/ns#
    • https://ogp.me/ns/music#
    • https://ogp.me/ns/video#
    • https://ogp.me/ns/article#
    • https://ogp.me/ns/book#
    • https://ogp.me/ns/profile#
    • https://ogp.me/ns/website#
  • Préfixe : « og »
  • Dans Wikidata : Q17107778
  • The Open Graph protocol (og) : Lien
  • Un guide de partage pour les administrateurs de sites, facebook for developers : Lien
  • Open Graph Check : Lien
  • Plugin « Open Graph » pour WordPress : Lien

Créé de manière officielle par Facebook en 2010, le vocabulaire Open Graph a été adopté par plusieurs plateformes web, parmi lesquelles Pinterest, LinkedIn, Twitter, IMDB. Son usage en fait l’un des outils du SEO les plus populaire, car pris en compte par les robots d’indexation de Facebook (2004) et depuis 2010 de Google. Les métadonnées sont spécifiées dans la balise <meta property> de l’en-tête HTML, un apport du format RDFa en date de 2008. La valeur d’og:type apporte une précision sur la classe de l’objet à décrire.

Pour que la description OG soit valide, les 4 propriétés de premier niveau (og:type, og:title, og:image, og:url) se montrent obligatoires. On remarque sur la typographie que les noms de classe sont avec Open Graph, tout comme les propriétés, notés en minuscule.

  1. og:title : titre de la page décrite
  2. og:type : classe de l’entité décrite avec les valeurs possibles suivantes :
    1. music.song, music.album, music.playlist, music.radio_station
    2. video.movie, video.episode, video.tv_show, video.other
    3. article (propriétés possibles associées à la classe)
      • article:published_time, article:modified_time, article:expiration_time, article:author, article:section, article:tag
    4. book
      • book:author, book:isbn, book:release_date, book:tag
    5. profile (pour décrire les individus)
      • profile:first_name, profile:last_name, profile:username, profile:gender
    6. website
  3. og:image : une image représentative de l’entité. Propriétés possiblement associées :
    • og:image:url, og:image:secure_url, og:image:type, og:image:width, og:image:height, og:image:alt
  4. og:url : URL canonique de la page courante

7 propriétés supplémentaires se montrent facultatives :

  • og:audio, og:description, og:determiner, og:locale, og:locale:alternate, og:site_name, og:video

La documentation donne en exemple le code de la vidéo du film « The Rock (1996) », réalisée par Michael Bay, toujours accessible depuis IMDB. L’image de l’objet décrit se montre obligatoire, susceptible d’être affichée sur la SERP (Search Engine Research Page) des moteurs :

<html prefix="og: https://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="video.movie" />
<meta property="og:url" content="https://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="https://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>

1.3 Twitter Cards

  • Préfixe : « twitter »
  • Dans Wikidata : Q28554380
  • Twitter Cards, Arne Roomann-Kurrik, 2012 : Lien
  • Les Cartes Twitter, twitter developer : Lien, Lien
  • Plugin « Cartes Twitter » pour WordPress : Lien

Créé en 2012, le vocabulaire cartes Twitter (Twitter Cards) constitue une autre ontologie fréquemment utilisée en SEO. A noter que, suite au changement de nom de Twitter en X, Twitter Cards est actuellement nommé simplement Cards. Le préfixe « twitter » reste cependant conservé. Localisées dans l’attribut « name » des balises « meta », les métadonnées permettent ensuite le référencement riche d’une page sur les réseaux sociaux Twitter, TumblR et Blogger. Google prend en considération le format depuis 2012. L’affichage sur smartphone se montre particulièrement optimisé.

Quatre formats de cartes (4 classes de pages) sont distingués, spécifiés à l’aide de la valeur prise par twitter:card :

  1. La carte Résumé (summary),
  2. La carte Résumé avec grande image (summary_large_image),
  3. La carte Visionneuse de vidéo (player),
  4. La carte Application (app).

L’exemple donné dans la documentation est celui d’une page web d’un programme des Nations-Unies, dont l’objectif est de développer l’économie des états insulaires. La carte « summary » est prise en compte. Le code des autres cartes doit être préalablement validé dans l’interface dédiée aux développeurs pour être pris en compte https://cards-dev.twitter.com/validator et déclarée valide.

<meta name="twitter:card" content="summary" />
<meta name="twitter:site" content="@flickr" />
<meta name="twitter:title" content="Small Island Developing States Photo Submission" />
<meta name="twitter:description" content="View the album on Flickr." />
<meta name="twitter:image" content="https://farm6.staticflickr.com/5510/14338202952_93595258ff_z.jpg" />

1.4 Schema.org

  • Espace de nom : « https://schema.org »
  • Préfixe usuel : « schema »
  • Description dans Wikidata : Q3475322
  • Sur LOV : Lien
  • Documentation sur schema.org
  • Hiérarchie des classes : Lien
  • Classes de premier niveau de Thing : Action, CreativeWork, Event, Intangible, MedicalEntity, Organization, Person, Place, Product
  • Formation Optimiser son référencement sur le web (SEO) : Ajouter des données structurées, Walker Spider, 2022, lecture 4 min : Lien
  • Le site web Structured Data Linter aide les webmestres et les développeurs à vérifier la validité des données structurées de leurs pages HTML. Publié par « structured-data.org », la doublure (linter) parse les formats microdata, JSON-LD et RDFa. Exemple : données structurées présentes dans la page Wikipédia du roman de Tolkien Le Hobbit (og suivi de schema) : Lien
  • 9.9.1. Marking up Data pages with Schema.org & Bioschemas for SEO, FAIR Cookbook, Alasdair J G Gray, Leyla Garcia, Philippe Rocca-Serra : Lien
  • Schema.org, une ontologie au service du référencement et du partage des connaissances, P. Couchet, AHP-numérique, 2020 : Lien

Google, Bing (Microsoft), Yahoo, Yandex s’associent à partir de 2011 pour mettre au point une ontologie à large spectre descriptif. Celle-ci est nommée Schema.org (ici notée Schema), se montre opensource, disponible sous licence Creative Commons ShareAlike. Les noms de Dan Brickley (W3C, Google), Ramanathan Guha (Cyc, Apple, Netscape Navigator, RDF), et Steve Macbeth (Microsoft) se montrent plus particulièrement liés à la mise au point de ce vocabulaire dont les applications incluent la description d’une variété de choses, y compris dans les aspects commerciaux. Généralement annuelles, des mises à jour sont organisées et la version 26.0 de Schema est sortie en 2024.

Pour Google, l’objectif se montre double. Sa base de connaissance Google Knowledge Graph s’appuie sur certaines des classes et propriétés de Schema. Il s’agit donc de la mettre à jour à l’aide des métadonnées collectées dans les sites récemment crawlés. Les informations et images peuvent ensuite être mis en évidence dans les SERP (Search Engine Research Pages). Des réponses (informations factuelles, images) sont ainsi fournies directement aux utilisateurs, sans nécessité pour eux d’accèder aux sites. Les éditeurs de sites web attendent en retour de leurs efforts de signalement des contenus l’optimisation de leur référencement, une audience augmentée. La documentation de Schema fournit plusieurs sérialisations : Microdata, RDFa, JSON-LD, accompagnées d’exemples.

Au fil des versions, la hiérarchie des classes d’objets possibles à décrire avec Schema s’est affinée. Les classes spécifiques héritent des propriétés des classes générales, plus proches de la racine. Au-delà de préoccupations de marketing, Schema permet de décrire une variété d’objets et peut être étendue. D’autres ontologies compatibles incluent The Product Types Ontology (Q99543767), GoodRelations (Q39053847). Nommée Bioschemas (Q93995803), une extension de Schema a également été mise au point pour un usage en biologie. Un autre article de ce blog détaille plus longuement l’usage de Schema pour décrire une variété d’objets culturels (livres, disques, vidéos, document d’archives, bibliothèques, archives, musées).

Liste des tâches que les administrateurs de bases de données en biologie moléculaire et classique doivent entreprendre pour baliser leurs données, dans l’objectif de favoriser leur référencement. Avec Schema, étendu avec Bioschemas

2. Gestion des connaissances communes

Dans un premier billet lié à celui-ci, les ontologie des bases sémantiques DBpedia et Wikidata sont comparées. Un second article séparé décrit SKOS (Simple Knowledge Organization System), une ontologie dédiée à la structuration des vocabulaires contrôlés tels que dictionnaires, thésaurus et codes de classements. Différentes connaissances communes peuvent être gérées à l’aide de ces trois ontologies. Les exemples choisis auront souvent pour sujet Paul Otlet (1868-1944), un bibliothécaire belge dont l’influence fut et reste remarquable.

3. Personnes, organisations et relations sociales

Les années 1990 et 2000 sont marquées sur le web par l’apparition de plusieurs formalismes, visant à rendre possible l’autodescription des individus, la description des organisations. Les formats RDF XML et OWL (2012) sont venus singulièrement renouveler la question et les formats cartes de visite, définis préalablement pour les messageries Internet.

3.1 An Ontology for vCards (vcard)

  • Espace de nom : http://www.w3.org/2006/vcard/ns
  • Sur Wikidata : Q305941
  • Description sur LOV : Lien
  • Sur Wikipédia : https://fr.wikipedia.org/wiki/VCard
  • Representing vCard Objects in RDF/XML, note 22, Renato Iannella, W3C, 2001 : Lien
  • Representing vCard Objects in RDF (and RDFa), Renato Iannella, W3C, 2010 : Lien
  • vCard and CardDAV, IETF Working Group, Simon Perreault, IETF, 2007-2012 : Lien
  • vCard Ontology – for describing People and Organizations, Renato Iannella, Semantic Identity working group, W3C Draft, 2014 : Lien
  • Introducing the vCard standard, CalConnect, 2016, Historique : Lien
  • Comment créer un fichier VCF (vCard) : 6 façons, Malekall.com, 2022 : Lien
  • Business Card Hosting (1 carte gratuite) : https://vcardhosting.com/

vCard constitue un format d’échange relativement ancien pour les contacts de messagerie et pour les agandas téléphoniques. Des informations comme le nom, le numéro de téléphone, l’adresse personnelle et professionnelle peuvent y être renseignés. vCard sert à formaliser l’échange d’informations par eMail, MMS, messagerie instantanés, et aussi QR code, HTML et XML RDF. De manière standard, les fichiers au format vCard ont pour extension « .vcf ».

Sans trop détailler, une vCard doit contenir, pour être valide, les propriétés BEGIN, VERSION, FN, N, END. Associé à vCard, se trouve le format vCalendar, susceptible d’afficher et de partager des emplois du temps personnels. La version de vCard doit être précisée : de nombreux services (GMail, « vcardhosting.com ») se servent actuellement de la version « 3.0 » de vCard, alors qu’une version « 4.0 » a été mise au point par ailleurs.

Si l’on s’intéresse à l’histoire complexe de ce format, les premiers développements datent des années 1990, dans le contexte d’Internet. Ils sont dus au consortium versit, une organisation qui regroupe alors Apple Computer, AT&T, IBM, Siemens, des sociétés américaines spécialisées dans la fabrication d’ordinateurs et dans la téléphonie. Une première version de vCard est mise au point, dans laquelle ‘v’ peut être compris comme ‘versit’ ou ‘virtual’. En 1996, versit stoppe ses activités et les propriétés intellectuelles, parmi lesquelles les formats vCard et vCalendar sont repris par Internet Mail Consortium (IMC). On trouve Paul E. Hoffman, un informaticien impliqué dans l’Internet Engineering Task Force (IETF), derrière cette petite société basée à Santa Cruz.

En 1998, la première version de vCard est publiée en RFC (Request For Comment) à l’IETF sous le nom de RFC2426. En 2001, le W3C sort à l’état de note une première adaptation de vCard en XML RDF. Lorsqu’IMC stoppe à son tour ses activités, en 2002, la petite société transfert à l’IETF en les offrant les droits des formats vCard et vCalendar. Ceux-ci deviennent alors ouverts et gérés par deux groupes successifs de l’IETF Calendaring and Scheduling Working Group (1996-2004), puis vCard and CardDAV (2007-2012).

Une nouvelle version de vCard, la 4.0, devient publiée par l’IETF en 2011 sous le nom de RFC6350, dans laquelle les noms de certaines propriétés sont supprimés ou changés; des équivalences sont établies, des fonctionnalités supplémentaires sont introduites, notamment pour la synchronisation des agendas. Le protocole d’accès CardDAV est mis au point, utilisé par exemple par le client de messagerie Zimbra.

A partir de 2012, vCard peut être intégré dans le corps des textes HTML, sérialisé en microformat. Le format principal retenu est alors nommé h-Card. Il se décline en h-adr pour encoder l’adresse et h-geo pour la géolocalisation. En 2014 finalement, l’IETF propose avec la RFC7095 le formalisme jCard, pour encoder une vCard en JSON, également susceptible d’être intégré à HTML. L’intérêt du W3C pour le format de l’IETF se montre assez récent. Le Semantic Web Interest Group (SWIG 2001-), groupe officiellement clos depuis plusieurs années, mais dont la liste de diffusion reste cependant active se penche sur une adatation sous forme d’ontologie en XML RDF (vCard en XML RDF) du format en 2014.

Depuis 2016, la vCard classique est maintenue par le VCARD Technical Committee du consortium CalConnect, une société à but non commercial, organisatrice de conférences tenues annuellement, qui sert d’intermédiaire entre les vendeurs d’appareils électroniques et les utilisateurs. En 2020, sous le numéro RFC6351, une version XML de vCard est proposée et nommée xCard. Elle est le fruit des travaux du groupe de l’IETF xCard: vCard XML Representation (2009-2020).

Une carte vCard classique permet de distinguer les usages personnels et professionnels. Deux exemples de vCard sont ici proposés : les cartes de visite personnelles au format VCF de deux utilisateurs fictifs : « John Doe » au format 3.0 largement adopté, et « Jane Doe » en 4.0. On s’intéressera particulièrement aux capacités descriptives de la propriété N :

BEGIN:VCARD
VERSION:3.0
N:Doe;John;;;
FN:John Doe
ORG:Example.com Inc.;
TITLE:Imaginary test person
EMAIL;type=INTERNET;type=WORK;type=pref:john.doe@example.org
TEL;type=WORK;type=pref:+1 617 555 1212
TEL;type=CELL:+1 781 555 1212
TEL;type=HOME:+1 202 555 1212
TEL;type=WORK:+1 (617) 555-1234
item1.ADR;type=WORK:;;2 Example Avenue;Anytown;NY;01111;USA
item1.X-ABADR:us
item2.ADR;type=HOME;type=pref:;;3 Acacia Avenue;Newtown;MA;02222;USA
item2.X-ABADR:us
NOTE:John Doe has a long and varied history\, being documented on more police files that anyone else. Reports of his death are alas numerous.
item3.URL;type=pref:http\://www.example/com/jdoe
item3.X-ABLabel:_$!<HomePage>!$_
item4.URL:https\://www.example.com/Joe/foaf.df
item4.X-ABLabel:FOAF
item5.X-ABRELATEDNAMES;type=pref:Jane Doe
item5.X-ABLabel:_$!<Friend>!$_
CATEGORIES:Work,Test group
X-ABUID:5AD380FD-B2DE-4261-BA99-DE1D1DB52FBE\:ABPerson
END:VCARD
BEGIN:VCARD
VERSION:4.0
REV:2023-11-26 02:01:32
N:Doe;Jane;;;
FN:Jane Doe
SORT-STRING:Doe
ORG:Example Inc;vCard Department;vCard encoding
ADR;type=WORK:;;123 Main Street Apt 234A;Anywhere;PA;15523;United States
PHOTO;MEDIATYPE=image/gif:http://www.example.com/photos/janedoe.gif
EMAIL:jane.doe@example.com
TEL;type=WORK,voice:412-999-5555 x333
TEL;type=CELL,voice:412-999-9988
URL;type=WORK:http://vcardhosting.com
FBURL;PREF=1:http://www.example.com/busy/janedoe
FBURL;MEDIATYPE=text/calendar:ftp://example.com/busy/project-a.ifb
UID:urn:uuid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6
NOTE;ENCODING=QUOTED-PRINTABLE;CHARSET=UTF-8:Hello: I am a custom field! - I love vCards!
END:VCARD
Notation d'un nom complet détaillé : N:Stevenson;John;Philip,Paul;Dr.;Jr.,M.D.,A.C.P

La carte de visite de « John Doe », sérialisée en JSON-LD, avec des précisions supplémentaires sur les langues qu’il pratique (l’anglais, le français, l’allemand et le latin ! ) :

{
"@context": "http://www.w3.org/2006/vcard/ns",
"@id": "https://example.com/johndoe",
"@type": "Individual",
"fn": "John Doe",
"hasName":{
"hasGivenName": "John",
"hasFamilyName": "Doe"
},
"nickname": "vJohn",
"sort-string": "doe",
"hasEmail": "mailto:john.doe@example.com",
"hasAddress": {
"@type": "Home",
"country-name": "USA",
"locality": "Newtown",
"postal-code": "02222",
"street-address": "3 Acacia Avenue"
},
"hasLanguage": ["en","fr","de","la"],
"hasTelephone": [
{
"@type": [ "Home", "Voice", "Cell" ],
"hasValue": "tel:+1 202 555 1212"
},
{
"@type": "Work",
"hasValue": "tel:+1 617 555 1234"
}
],
"hasSource": "https://example.com/johndoe/vcard.vcf"
}

1/ Les classes

Les propriétés des vCards originales et celles des vCards sémantiques sont listées. On entend par « entité » une personne, un groupe, une organisation, un lieu, caractérisés par une page HTML sur le web.

vCard classiquevCard sémantique : les classesnote d’application
GENDERGender (Female, Male, None, Other, Unknown)genre renseigné en valeur de hasGender (Gender est classe générique, en absence de renseignement)
KINDKind (Group, Individual, Location, Organization)classe de la vCard (Kind est classe générique en absence de précision). Un groupe peut avoir des membres.
RELATEDRelatedType (Acquaintance, Agent, Child, Colleague, Contact, Coresident, Coworker, Crush, Date, Emergency, Friend, Kin, Me, Met, Muse, Neighbor, Parent, Sibling, Spouse, Sweetheart)relation renseignée en valeur de hasRelated (RelatedType classe générique)
TELPhone (Cell (mobile), Fax, Pager (bipeur), Text (SMS), Text phone (téléphone à message), Video (visioconférence), Voice)type physique de téléphone en valeur de hasTelephone (Phone est classe générique), croisé avec le type TYPE
TYPEType (Home, Work, Pref)catégorie d’information (Type est classe générique en absence de précision)

2/ Les propriétés

Des fonctionnalités spéciales (CALADURI, CALURI, FBURL) permettent l’éventuel partage d’emplois du temps et les prises de RDV. Le champs N requis de vCard (NAME) est détaillé en plusieurs propriétés dans l’ontologie.

vCard classique « 4.0 »vCard sémantique : les propriétésnote d’application
ADRhasAddress
hasStreetAddress
hasLocality
hasRegion
hasCountryName
hasPostalCode
adresse détaillée présentée de manière structurée en valeur de hasAddress
ANNIVERSARYanniversarydate de mariage au format AAAAMMJJ ou ISO 8601
BDAYbdaydate de naissance (birth day) au format AAAAMMJJ ou ISO 8601
CALADRURIhasCalendarLinkURI de l’adresse du calendrier
CALURIhasCalendarRequestURI de l’adresse du calendrier, pour envoyer une planification de RDV
CATEGORIEShasCategorycatégorie, par exemple pour rangement dans un annuaire, par exemple : « Famille », « Travail », « Contact »
EMAILhasEmailadresse(s) mail(s), éventuellement sous forme de tableau
FBURLhasCalendarBusyFree/Busy URL, pour spécifier les plages horaires du calendrier disponibles
FNhasFNfull name, par exemple « John Doe » ou « Example Inc. »
GENDERhasGendergenre détaillé par classe en valeur de hasGender
GEOhasGeolocalisation géographique usuelle
IMPPhasInstantMessagemessagerie instantanée (Instant Messaging and Presence Protocol), ex : aim:johndoe@aol.com
KEYhasKeyla clé de sécurité de l’objet
LANGhasLanguagecode de la langue d’écriture en valeur d’une propriété (RFC5646)
LOGOhasLogologo de l’entité (URI)
MEMBERhasMemberne sert que pour des entités de type Group
NhasName
hasGivenName
hasFamilyName
hasAdditionalName
hasHonorificPrefix
hasHonorificSuffix
nom de personne, détaillé par propriété en valeur de hasName.
NICKNAMEhasNickNameéventuellement sous forme de tableau, disjoint de FN et N
NOTEhasNote
ORGhasOrganizationName
hasOrganizationUnitName
nom de l’organisation dans laquelle une personne exerce une activité professionnelle.
PHOTOhasPhotoimage qui annote certaines caractéristiques de l’entité (URL ou encodé)
PREFil est recommandé de se servir de rdf:Seq pour indiquer une préférence
RELATEDhasRelated
REVrevisionDate et heure de la génération : 2023-11-30 09:59:34
ROLEhasRolerôle joué par une personne dans l’organisation, voir aussi TITLE
SOUNDhasSoundson numérique qui annote des caractéristiques de l’entité
SORT-ASsort-stringchaîne de caractére pour un tri alphabétique, dépend éventuellement d’accents portés sur les lettres, par exemple « eloi » pour « Éloi »
SOURCEhasSourcerépertoire d’adresses, source originale de la vCard, sous forme d’URI
TELhasTelephone
has value
TITLEhasTitletitre du poste, de la fonction ou de la personne associée à l’objet vCard au sein d’une organisation
TZtztime zone : zone temporelle
UIDhasUidIdentifieur unique (Unique Identifier) de la vCard
URLhasURLurl de la page web identifiant la personne, le groupe, l’organisation, le lieu

3.2 Friend of a friend (FOAF)

  • Espaces de nom : http://xmlns.com/foaf/0.1/
  • Préfixe : « foaf »
  • Description dans Wikidata : Q1389366
  • Description sur LOV : Lien

Créée en 2000 par Libby Miller et Dan Brickley (W3C, Google) pour un usage complémentaire à Dublin Core, certaines propriétés de FOAF se montrent fréquemment utilisées de nos jours, pour décrire de manière sommaire les individus, groupes d’individus et organisations.

La hiérarchie des classes de FOAF est ici listée. Les propriétés associées (première lettre en minuscule) suivent entre parenthèses. Présente au niveau de « foaf:Thing », la propriété « foaf:name » s’applique à toute la hiérarchie des classes, y compris le titre d’un document ou le nom d’un projet. A noter également l’usage possible en complément de FOAF, de Dublin Core (DCMI), de GEO (W3C) pour localiser une organisation à l’aide de la propriété « foaf:based_near ».

Classes et propriétés de FOAF, présentées graphiquement avec WebVOWL : Lien

Relatives à la description des carrières professionnelles, d’autres ontologies comme DOAC (Description Of A Carreer) ou bien ResumeRDF peuvent venir en complément de FOAF :

3.3 A vocabulary for biographical information (bio)

  • Espace de nom : « http://purl.org/vocab/bio/0.1/ »
  • Lien du site : https://vocab.org/bio
  • Préfixe préféré : « bio »
  • Créateur : Ian Davis, David Galbraith
  • Description sur LOV : Lien

Créé en 2003 par Ian Davis (consultant dans une société de génie civil), associé à David Galbraith (designer, entrepreneur et architecte), dans un objectif de description des personnes ayant joué un rôle historique ou dont la généalogie est décrite, le vocabulaire BIO peut être utilisé conjointement avec Dublin Core, Event, FOAF et RDFS. L’ontologie évolue jusqu’en 2011, date à laquelle elle se montre composée de 42 classes et 33 propriétés.

BIO se montre plutôt conçu pour les historiens et généalogistes. Des événements biographiques peuvent être décrits avec « bio:Individual Event« . L’ontologie se montre centrée sur la personne plutôt que sur les organisations. Les événements possibles à décrire incluent la naissance, l’obtention de diplômes, le mariage, les activités professionnelles, la retraite, la participation à des événements ou des spectacles. Des moments plus sombres individuels ou collectifs ne sont pas oubliés, parmi lesquels le divorce, la mort, un meurtre, l’emprisonnement, etc.

Les classes Person et Event sont définies respectivement par les ontologies Friends Of A Friend et BIO. La classe Agent est spécifiée dans BIO et non dans Friends Of A Friend. L’évènement Employment, par exemple, positionne la personne au centre de la description. Birth admet date et place comme propriété. En fin de description, la biographie du roi Henry VIII est donnée en exemple, en syntaxe turtle.

Exemple sérialisé en turtle (extrait), d’après Ian Davis. Plusieurs événements biographiques relatifs au roi Henri VIII sont successivement décrits à l’aide de BIO, FOAF et rdfs : Lien

@prefix bio: <http://purl.org/vocab/bio/0.1/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

_:henryviii
  a foaf:Person
  ; foaf:name "Henry VIII, King of England"
  ; bio:father _:henryvii
  ; bio:mother _:elizplantagenet
  ; bio:child _:child1, _:child2, _:child3, _:child4, _:child5, _:child6, _:child7, _:child8
  ; bio:birth _:birth
  ; bio:death _:death
  ; bio:event _:burial, _:accession, _:coronation, _:marriage1
            , _:marriage2, _:marriage3, _:marriage4, _:marriage5, _:marriage6
  .

_:birth
  a bio:Birth
  ; rdfs:label "The birth of Henry VIII to Henry VII and Elizabeth Plantagenet on 28 June 1491"
  ; bio:date "1491-06-28"
  ; bio:place <http://dbpedia.org/resource/Palace_of_Placentia>
  ; bio:parent _:henryvii, _:elizplantagenet
  ; bio:principal _:henryviii
  .

_:marriage1
  a bio:Marriage
  ; rdfs:label "The marriage of Henry VIII and Catherine of Aragon"
  ; bio:date "1509-06-11"
  ; bio:place <http://dbpedia.org/resource/Palace_of_Placentia>
  ; bio:partner _:henryvii, _:catharagon
  .

_:catharagon
  a foaf:Person
  ; foaf:name "Catherine of Aragon"
  ; bio:child _:child1, _:child2, _:child3, _:child4, _:child5
  ; bio:event _:marriage1, _:annulment1
  .

_:child1
  a foaf:Person
  ; rdfs:label "Unnamed daughter of Henry VIII and Catherine of Aragon"
  ; bio:event [ a bio:Birth
                ; bio:date "1510-01-31"
                ; bio:principal _:child1
                ; bio:parent _:henryviii, _:catharagon
              ]
  ; bio:event [ a bio:Death
                ; bio:date "1510-02-02"
                ; bio:principal _:child1
              ]
  .

Un début de verbalisation en français de l’exemple serait :

Henri VIII, roi d’Angleterre est le fils de Henri VII et d’Elisabeth Plantagenet. De ses successifs six mariages naissent huit enfants. Le futur Henri VIII nait le 28 juin 1491, au palais royal de Placentia. Son premier mariage, avec Catherine d’Aragon le 11 juin 1509, est organisé dans les mêmes lieux. De leur union nait un premier enfant le 31 janvier 1510 qui ne vit qu’un mois…

Hiérarchie des classes de BIO visualisée dans Protégé. « Graduation » : événement associé à l’obtention d’un diplôme individuel

Un exemple d’usage réel de BIO : la biographie de Colette, l’auteure français, telle que référencée dans openlibrary.org et sérialisée en XML RDF (extrait) : Page HTML, Page RDF. On remarque l’usage conjoint des ontologies FOAF (vu précédemment) et rdg2 (RDA group 2 element, description à suivre). La date de naissance, par exemple, est indiquée en propriété de la classe Birth.

<rdf:RDF>
<foaf:Person rdf:about="http://openlibrary.org/authors/OL119715A">
<foaf:name>Colette</foaf:name>
<rdg2:variantNameForThePerson>Colette Willy</rdg2:variantNameForThePerson>
<bio:event>
 <bio:Birth>
  <dcterms:date>28 January 1873</dcterms:date>
</bio:Birth>
</bio:event>
<bio:event>
 <bio:Death>
  <dcterms:date>3 August 1954</dcterms:date>
</bio:Death>
</bio:event>
</rdf:RDF>

3.4 Relations interpersonnelles : Relationship (rel)

  • Espace de nom : http://purl.org/vocab/relationship
  • Préfixe : rel
  • Créateur : Ian Davis, Eric Vitiello Jr
  • Site Web : https://vocab.org/relationship/
  • Description sur LOV : Lien

Œuvre de Ian Davis de nouveau, associé à Eric Vitiello Jr, de 2003 à 2010. Un vocabulaire est mis au point pour faciliter la description des relations entre individus, que celles-ci soient sociales, familiales, professionnelles, de voisinage, etc. 36 propriétés sont définies. A utiliser en prolongement de FOAF (exemple sérialisé en RDF). Pour rappel, les relations entre individus sont soumises à réglementation et protégés par le RGPD (Règlement général sur la protection des données).

L’ontologie rel se montre bien adaptée pour l’auto-description. Des relations entre individus de nature généalogique, amicales ou professionelles peuvent être mentionnées, susceptibles de servir à la modélisation des relations individuelles lors d’études historiques fines. Attention cependant à ne pas confondre l’ontologie « rel » ici bien détaillée, avec « relators » (Bibliothèque du Congrès). Ci dessous, dans l’exemple pris, Ian Davis, a rencontré Guillaume Tell.

<rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
  xmlns:foaf="http://xmlns.com/foaf/0.1/"
  xmlns:rel="http://purl.org/vocab/relationship/"
  >

  <foaf:Person rdf:nodeID=“ian”>
    <foaf:name>Ian Davis</foaf:name>
    <foaf:title>Mr</foaf:title>
    <foaf:firstName>Ian</foaf:firstName>
    <foaf:surname>Davis</foaf:surname>

    <rel:collaboratesWith rdf:nodeID="eric"/>
    <rel:hasMet>
      <foaf:Person>
        <foaf:name>William Tell</foaf:name>
      </foaf:Person>
    </rel:hasMet>

  </foaf:Person>

  <foaf:Person rdf:nodeID=“eric”>
    <foaf:nick>pixel</foaf:nick>
  </foaf:Person>

</rdf:RDF>

Acquaintance Of, Ambivalent Of, Ancestor Of, Antagonist Of, Apprentice To, Child Of, Close Friend Of, Collaborates With, Colleague Of, Descendant Of, Employed By, Employer Of, Enemy Of, Engaged To, Friend Of, Grandchild Of, Grandparent Of, Has Met, Influenced By, Knows By Reputation, Knows In Passing, Knows Of, Life Partner of, Lives With, Lives With, Lost Contact With, Mentor Of, Neighbor Of, Parent Of, Participant, Participant In, Relationship, Sibling Of, Spouse Of, Works With, Would Like To Know

3.5 Semantically-Interlinked Online Communities (SIOC)

Développée de 2005 à 2018 par un groupe derrière lequel se trouve notamment John Breslin, un irlandais employé par l’Université de Galway, SIOC constitue une ontologie dédiée à la description des communautés électroniques du type réseau social, liste de discussion, en interaction sur des documents en ligne. L’ontologie se montre spécialement conçue pour décrire un article de blog, un fil de discussion sur un forum, par exemple. A utiliser conjointement avec Dublin Core, SKOS et RSS pour décrire des contenus de blogs, forums, wikis, traduite en français, italien et espagnol. Des propriétés comme « sioc:net_by_date » ou « sioc:next_version » sont dédiées à la navigation dans une liste de documents sur lesquels des interactions se jouent.

Classes: | Community | Container | Forum | Item | Post | Role | Site | Space | Thread | User | Usergroup |

Properties: | about | account_of | administrator_of | attachment | avatar | container_of | content | creator_of | email | email_sha1 | feed | function_of | has_administrator | has_container | has_creator | has_function | has_host | has_member | has_moderator | has_modifier | has_owner | has_parent | has_reply | has_scope | has_space | has_subscriber | has_usergroup | host_of | id | ip_address | link | links_to | member_of | moderator_of | modifier_of | name | next_by_date | next_version | note | num_replies | num_views | owner_of | parent_of | previous_by_date | previous_version | related_to | reply_of | scope_of | sibling | space_of | subscriber_of | topic | usergroup_of |

Role – function of a User within a scope of a particular Forum, Site, etc.

3.6 Organization (org)

  • Espace de nom : http://www.w3.org/ns/org#
  • Description sur LOV : Lien
  • Auteurs : Dave Reynolds, Epimorphics Ltd.
  • The Organization Ontology. W3C Recommendation 16 January 2014 : Lien

Fonctionnement d’une organisation, gouvernementale ou non, dont les individus et structures organisationnelles sont répartis sur plusieurs sites, dont l’histoire organisationnelle peut être décrite. Publiée à l’état de recommandation par le W3C, cette ontologie fut élaborée dans le cadre des activités du Government Linked Data Working Group (2011-2014). Elle s’inscrit en prolongement de FOAF pour décrire les relations entre entités amenées à jouer un rôle dans un organisation gouvernementale ou non : Lien

Classes: | ChangeEvent | FormalOrganization | Membership | OrganizationalCollaboration | OrganizationalUnit | Organization | Post | Role | Site |

Properties: | basedAt | changedBy | classification | hasMember | hasMembership | hasPost | hasPrimarySite | hasRegisteredSite | hasSite | hasSubOrganization | hasUnit | headOf | heldBy | holds | identifier | linkedTo | location | memberDuring | memberOf | member | organization | originalOrganization | postIn | purpose | remuneration | reportsTo | resultedFrom | resultingOrganization | role | roleProperty | siteAddress | siteOf | subOrganizationOf | transitiveSubOrganizationOf | unitOf |

Graphe du modèle de donnée, proposé pour Organization

3.7 La provenance avec PROV-O

  • Espace de nom : http://www.w3.org/ns/prov#
  • Identifiant Wikidata : Q62213429
  • Description sur LOV : Lien
  • Provenance Working Group, 2012-2013, Wiki : Lien
  • Provenance XG Final Report. W3C Incubator Group Report 08 December 2010 : Lien
  • PROV-Overview. An Overview of the PROV Family of Documents. W3C Working Group Note 30 April 2013 : Lien
  • PROV-O: The PROV Ontology. W3C Recommendation 30 April 2013 : Lien
  • PROV (Provenance), Wikipedia : Lien
  • The rationale of PROV, by Luc Moreau, Paul Groth, James Cheney, Timothy Lebo, Simon Miles, 2015 : Lien

PROV-O correspond à la sérialisation en OWL2 de l’ontologie Provenance. Elle résulte des activités du groupe de travail Prov du W3C, actif de 2010 à 2013 environ. Le rapport final précise :

La provenance fait référence aux sources d’une information, telles que des entités et des processus, impliqués dans la production ou le rendu d’artéfacts. La provenance d’une information est cruciale pour décider si une information est digne de confiance, comment elle pourra être intégrée à diverses autres sources d’informations et comment apporter crédit à ceux qui en sont à l’origine, lorsque l’on s’en sert de nouveau. Dans un environnement ouvert et inclusif tel que le web, les utilisateurs trouvent souvent des informations qui apparaissent contradictoires ou sujettes à question. Les gens font des jugements de confiance basés sur la provenance, qui peuvent être ou non rendus explicites. Les raisonneurs du web sémantique tireraient bénéfice à faire des jugements sur le niveau de confiance des informations utilisées. […] Ainsi, un facteur crucial du déploiement du web sémantique est la capacité à exprimer explicitement la provenance, de manière compréhensible par les hommes et les machines.

Groupe de travail Prov du W3C, 2010

Mise au point par le W3C, elle est concue pour renseigner la couche TRUST du gateau en couches du web sémantique. Trois scenarios sont donnés en exemple. 1/ le cas d’un aggrégateur automatique de nouvelles du genre actualités. 2/ le cas de la provenance des données de la recherche, dans les domaines de la biologie et des sciences sociales. 3/ le cas de la qualité de produits manufacturés complexes. Des ontologies comme FOAF, SIOC et Dublin Core peuvent selon les cas être intégrées. Un document publié en 2013 établit l’alignement entre les propriétés Dublin Core et les propriétés de PROV.

Modèle de donnée simplifié de PROV. On trouve, derrière Entity, l’objet dont la provenance doit être attestée et derrière Activity, deux propriétés du type Date startedAtTime et endedAtTime : Lien

3.8 Autres

4. Métiers des bibliothèques

Les bibliothèques se distinguent expressément des musées et des archives, par le fait qu’elles entreposent et proposent au prêt et à la lecture des documents produits en série, industriels somme toute. Ceux-ci se trouvent possiblement édités et ré-édités en plusieurs langues, adaptatés et destinés à divers publics, sur une variété de supports parmi lesquels le papier, le micofilm, le fichier électronique. Plusieurs réflexions furent successivement engagées, aboutissant à des séries et familles d’ontologies. Ce long paragraphe tente de décrit une série de modèles et d’ontologies mises au point entre 1992 et 2024.

4.1 The Bibliographic Ontology (BIBO)

  • Espace de nom : « http://purl.org/ontology/bibo/ »
  • Préfixe usuel : « bibo »
  • Identifiant Wikidata : Q574326
  • Description sur LOV : Lien
  • The Bibliographic Ontology (BIBO), site web officiel, hébergé au DCMI : Lien
  • Bibliographic Ontology Specification. Specification Document – 4 November 2009, Archive du site web d’origine : Lien
  • The Next Bibliographic Ontology: OWL, Frederick Giasson, 2008 : Lien

Des ontologies plus simples que RDA ou RDA-FR rendent possible le catalogage. Créée de 2008 à 2013 par Bruce D’Arcus (un géographe impliqué également dans FRBR Core) et Frederick Giasson, BIBO est de nos jours maintenue par le DCMI (Dublin Core Metadata Initiative). Cette ontologie se montre conçue pour être utilisée conjointement avec Friends Of A Friend (foaf:Agent) et Dublin Core (dcterms).

BIBO permet de décrire simplement les métadonnées relatives à une série de documents (livres, périodiques, image, manuscrit, document audiovisuel), d’événements (concert), de personnes et d’organisations, pour des corpus de quelques dizaines à queelques milliers d’items, sans les contraintes et proccupations que rencontrent les bibliothécaires professionnels. La hiérarchie des classes est ici visualisée sous forme d’une liste ordonnée. Les propriétés spécifiques de certaines classes sont notées entre parenthèses et le signe supérieur « > » indique la hiérarchie des classes et propriétés. On trouve, parmi les propriétés définies à la racine, susceptibles de décrire tout document, le résumé et l’identifiant (définis distinctement de « dcterms:description > dcterms:abstract » et « dcterms:identifier »).

0/ Racine : Thing *

propriétés > sous-propriétés : abstract, identifier > (asin, coden, doi, eanucc13, eissn, gtin14, handle, isbn, issn, Iccn, oclcnum, pmid, sici, upc, uri)

1/ Document (bibo:Document = foaf:Document)

propriétés > sous-propriétés : citedBy / cites, content, editorList, contributorList > authorList, locator > (chapter, issue, pageEnd, pageStart, pages, section, volume), number, pages, presentedAt, producer, dcterms:isPartOf > reproducedIn, reviewOf, section, shortDescription, shortTitle, status, transcriptOf, dct:relation > dct:isVersionOf > translationOf

Hiérarchie des sous-classes de « Document » :

  1. Article > Academic Article
  2. AudioDocument > AudioVisualDocument (director)
  3. Book > Proceedings
  4. Collection (numVolumes)
  5. CollectedDocument
  6. DocumentPart
  7. Image (=foaf:Image) > Map
  8. LegalDocument (argued, court)
    • Bill
    • LegalCaseDocument
      1. Brief
      2. LegalDecision (affirmedBy, subsequentLegalDecision > reversedBy)
    • Legislation
      1. Statute
  9. Manual
  10. Manuscript
  11. Note (dcterms:relation > annotates)
  12. Patent
  13. PersonalCommunicationDocument (recipient)
  14. ReferenceSource (un dictionnaire par exemple)
  15. Report
  16. Slideshow
  17. Specification
    • Standard
  18. Thesis (degree)
  19. Webpage
  20. Film

3/ DocumentStatus

4/ Event (organizer, presents)

  1. Conference
  2. Hearing
  3. Interview
  4. Performance
  5. PersonalCommunication
  6. Workshop

5/ Thesis degree

6/ Agent (= foaf:Agent, = dcterms:Agent, personne, groupe ou organisation) (dct:contributor > (editor, interviewee, interviewer, performer, translator), distributor, dct:publisher > issuer, owner, prefixName, suffixName)

BIBO visualisé avec Protégé : Lien
Graphe de la hiérarchie des classes BIBO

4.2 Efforts de modélisation des données bibliographiques

Spécifique des bibliothèques, le modèle théorique FRBR devient proposé par l’IFLA (International Federation of Library Association) à partir de 1991. L’introduction du web sémantique, quelque vingt ans plus tard, apporte un renouveau dans les réflexions originelles, plutôt liées à l’introduction de la programmation orientée objet. Les efforts successifs de structuration sont présentés dans l’ordre chronologique et ceux-ci quelques trente années plus tard restent en courds de finalisation. Derrière les ontologies des bibliothèques se trouvent des règles à la fois nationales et internationales qui président aux normes suivies par les catalogueurs professionnels.

4.2.1 Les modèles FRBR, FRAD et FRSAD

  • FRBR : Travaux de l’IFLA, 1992, 1998, 2009 : Lien
  • FRBR, Wikidata : Q16388
  • FRSAD (vedettes matière), Wikipédia : Lien
  • Fonctionnalités requises des données d’autorité, Wikipédia : Lien

Le modèle conceptuel de données FRBR (Functionnal Requirements for Bibliographic Records) résulte des travaux d’un groupe de l’IFLA (International Federation of Library Association) dont les réflexions débutent en 1991. De 1992 à 1995, un groupe de travail présidé par Olivia Madison, avec parmi ses représentants francophone pour la BnF Suzanne Jouguelet et Maria Witt (Médiathèque de la Cité des Sciences) développent le modèle entité-relation FRBR, proposant une vue de l’univers bibliographique indépendant de toute règle et code de de catalogage pour son implémentation.

La description du processus créatif complet depuis la création d’une œuvre par son auteur, en passant par son expression (éventuelle traduction, nouvelle édition), sa fabrication à objectif commercial, jusqu’à l’obtention d’un exemplaire (papier, numérique) dans une bibliothèque est pris en considération. Des livres, revues, journaux, films et documentaires, pièces musicales, blogs et pages du web, ensembles de données, codes et logiciels, vocabulaires et dictionnaires, décisions légales et arrêts rendus, archives gouvernementales, rapports techniques et commerciaux peuvent être décrits de manière pertinente à l’aide de FRBR. Un voccabulaire particulier est créé à cette occasion.

Toute œuvre originale publiée peut être décrite à l’aide d’une suite de 4 entités liées entre elles. L’entité Work traduit en français par « Œuvre » décrit l’œuvre originale ainsi que la forme de l’oeuvre. Un exemple d’œuvre fréquemment donné en France est « Notre Dame de Paris » de Victor Hugo. Une oeuvre originale sera le texte de Hugo. La comédie musicale du même nom (Luc Plamondon, Richard Cocciante, Gilles Maheu) est considérée comme une autre oeuvre originale, adaptée et originale du fait du changement de format. Expression correspond à la réalisation d’une œuvre (écrite, musicale) et concerne essentiellement l’édition, la réédition, la traduction. Le modèle prend en compte les aspects intellectuels et juridiques : nom des contributeurs à l’édition et rôles joués par ceux-ci (graveur des illustrations pour le texte, mise en scène pour la comédie, traducteur, illustrateur). L’entité Manifestation décrit les aspects physiques généraux. Item rassemble les propriétés en relation avec un exemplaire particulier localisé dans la bibliothèque, la localisation avec une cote. Des variations entre items peuvent correspondre à un état physique particulier, à la mention d’un ancien propriétaire. Une bibliothèque peut mettre à disposition plusieurs items d’une même manifestation. En bibliothèque, le catalogage est réalisé à partir de l’Item.

Catalogue, chercher le littéraire, du papier au numérique, F. Glorieux, 2017 : Lien

FRBR devient ensuite complété (2004 à 2009) par le modèle FRAD (Functional Requirements for Authority Data) pour nommer les personnes et organisations auteurs ou agents (illustrateur, chef d’orchestre) dans la production des oeuvres (entités de groupe 2). Puis le modèle FRSAD (Functional Requirements for Subject Authority Data, entités de groupe 3, 2010) – pour nommer sujets et thèmes – finalisent cette modélisation de première génération.

4.2.2 De LRM à RDA

  • The Library Reference Model (LRM) Q54410458
  • Ressource Description & Access (RDA) (2009-2017) Q1519318

En 2017, FRBR, FRAD et FRSAD se trouvent intégrés en un seul modèle nommé Library Reference Model (LRM). Les entités Agent, Time-span, Place, Nomen et Res se trouvent introduits et viennent compléter la structuration.

En parallèle de ces modèles théoriques, le RDA Steering Comitee élabore, de 2010 à 2013, l’ontologie de Ressource Description & Access (RDA). Une ontologie unique accompagnée d’un guide de catalogage en anglais deviennent disponibles.

De nombreuses bibliothèques nationales, dont la Bibliothèque du Congrès puis la British Library, la Bibliothèque et Archives du Canada, la Bibliothèque nationale australienne, la Bibliothèque nationale allemande, la Bibliothèque nationale d’Espagne, la Bibliothèque nationale de Lettonie, la Bibliothèque nationale des Pays-Bas adoptent RDA.

  • Fonctionnalités requises des données d’autorité (FRAD) : Lien
  • Functional Requirements for Subject Authority Data (FRSAD) : Lien
  • Modèle de référence IFLA pour les bibliothèques : Lien
  • LRM (Library Reference Model), IFLA, 2017 : Lien
  • LRMoo (formerly FRBRoo) object-oriented definition and mapping from IFLA LRM : Lien
  • Ressources : description et accès : Lien
  • RDA Registry : Le Registre RDA contient des ontologies qui représentent les entités RDA, les propriétés et vocabulaires contrôlés spécifiques des propriétés exprimés en RDF : Lien

4.2.3 La transition bibliographique RDA-FR (2015-2022) Q60964684

La création de data.bnf.fr par la BnF en 2011 constitue une étape majeure en direction du web de données organisée au niveau national. Il s’ensuit l’ouverture au public des données bibliographiques, enfouies dans précédemment trois bases indépendantes qui continuent à coexister : le Cataloguee général, la Base Archives & Manuscrit, la bibliothèque numérique Gallica.

Les choix faits en matière d’ontologies consistent à adopter simultanément certaines propriétés choisies parmi plusieurs vocabulaires pour décrire les données dans le cadre du modèle FRBR. Le modèle de donnée se sert de certaines propriétés de RDFS, SKOS, DCTERMS, FOAF, rdvocab, rdarelationships, RDAgroup2elements. Une ontologie spécifique « onto-bnf » définit un certain nombre de propriétés spécifiques, non existantes en 2011. Les mêmes valeurs, simplifiées et reconfigurées, sont embarquées dans le code HTML des pages pour optimiser le référencement. Les vocabulaires employés sont alors Dubin Core et Opengraph Protocol. Code source de la notice de « Notre-Dame de Paris« .

En ce qui concerne les travaux de catalogage, la lecture de RDA par les spécialistes des métadonnées de l’Agence bibliographique de l’enseignement supérieur (Abes) et de la Bibliothèque nationale de France (BnF) se poursuit de 2010 à 2014. L’Abes et la BnF publient un communiqué commun en 2014 officialisant la position française : se rapprocher le plus possible du code RDA, tout en conservant l’analyse catalographique « à la française ». Le principe justifiant cette position est celui de la non-régression. Il y a légitime nécessité – précise le communiqué – de ne pas perdre les informations contenues dans les notices d’ancienne génération accessible au format INTERMARC. Une évolution vers le format de catalogage INTERMARC ng est envisagée dans le but d’intégrer de manière raisonnée les apports successifs de FRBR et LRM.

La Transition bibliographique est lancé en 2015. Elle a pour objectif de faire évoluer les règles de catalogage vers un modèle national RDA-FR. Trois groupes de travail sont constitués. Le Groupe de normalisation est chargé de rédiger le futur code de catalogage. Il prépare également des demandes d’évolution de RDA dans le cadre du groupe RDA EURIG. Le Groupe Formation élabore des supports pédagogiques et monte des formations à destination des bibliothécaires. Le Groupe Systèmes & Données travaille sur les aspects plus spécifiquement informatiques du projet.

  • Transition bibliographique, des catalogues vers le web de données : Lien, (Normalisation, Formation, Systèmes & Données)
  • European RDA Interest Group : Lien
  • À défaut d’enterrement : les défis et les promesses de l’INTERMARC nouvelle génération. Peyrard, 2018 : Lien
  • Appliquer FRBRoo à la Bibliothèque nationale de France ? M. Roche, 2019 : Lien
  • Seconde expérimentation Sudoc FRBR / LRM (octobre 2019 – …), ABES : Lien
  • Qu’est-ce que RDA-FR ? Transition bibliographique, 2021 : Lien
  • RDA-FR bêta, 2023, BnF, ABES, Transition bibliographique : https://code.rdafr.fr/

4.3 Ontologies dérivées de FRBR

Les efforts intellectuels engagés pour modéliser les éléments d’une notice bibliographique aboutissent à la mise au point d’un série d’ontologies dont certaine sont actuellement déprésiées et utilisées, d’autres sont toujours en cours de développement.

4.3.1 Expression of Core FRBR Concepts in RDF (FRBR Core)

  • Espace de nom : « https://vocab.org/frbr/core »
  • Préfixe usuel : « frbr »
  • Sur LOV : Lien
  • Expression of Core FRBR Concepts in RDF : Lien
  • Expression of Extended FRBR Concepts in RDF : Lien
  • Ian Davis « ab aequali potentia, iustitia » : Lien
  • Linked Data for Ian Davis : Lien

On doit à Ian Davis plusieurs ontologies créées au milieu des années 2000 et aujourd’hui toujours largement utilisées comme par exemple BIO, VANN ou RELATIONSHIP. Une première ontologie dérivée de FRBR est réalisée par Ian Davis, Richard Newman et Bruce D’Arcus en 2005 et nommée Expression of Core FRBR Concepts in RDF. Maintenant figée, l’ontologie sert de base aux ontologies SPAR dont FaBiO. Une extension de FRBR Core, nommée FRBR Extended est publiée la même année par Ian Davis et Richard Newman. Elle vient ajouter des propriétés supplémentaires à FRBR Core. Bruce D’Arcus est également l’un des créateur de BIBO, impliqué dans le langage Citation Style Language. Treize classes et 48 propriétés sont définies dans FRBR Core. On remarque parmi les classes la présence de Endeavour, possible à traduire en français par effort, initiative, entreprise.

ConceptclassUne idée ou une notion abstraite
CorporateBodyclassUne organisation ou un groupe d’individus et/ou d’autres organisations
EndeavourclassProduit d’un effort artistique ou créatif
EventclassUne action ou une occurence
Expression (embodiment, embodimentOf)classUne réalisation d’une oeuvre unique sous une forme physique
ItemclassUn exemplaire d’une manifestation
Manifestation (exemplar / exemplarOf)classL’incarnation physique d’une ou de plusieurs expressions
ObjectclassUne chose tangible ou matérielle
PersonclassUn individu vivant ou mort
PlaceclassUn lieu
ResponsibleEntityclassUne entité responsable de la création, de la production, de la distribution ou de la maintenance d’un contenu artistique ou créatif
SubjectclassQuelque chose qui peut servir de sujet à une oeuvre
Work (realization / realizationOf, creator / creatorOf, subject)classLa notion abstraite d’une création artistique ou intellectuelle
Liste des classes de FRBR Core : Lien
Modélisation de la partie centrale de FRBR Core

A l’inititive de Karen Coyle à partir de 2022, FRBR Core devient partiellement repris et soutenu par le DCMI sous l’appellation OpenWEMI Vocabulary. Les ambitions sont de décrire tout produit manufacturé, que celui-ci soit une image, un livre, une chanson ou une paire de lunette de soleil, indépendamment de contraintes liées au catalogage en bibliothèque. Des relations avec Schema.org sont mises en avant. Des exemples sont donnés.

4.3.2 FRBR-aligned Bibliographic Ontology (FaBiO)

  • Espace de nom : « http://purl.org/spar/fabio# »
  • Préfixe usuel : « fabio »
  • FaBiO, 2012, résumé et exemples : Lien
  • FaBiO, publié sur github Lien1, Lien2
  • FaBiO, the FRBR-aligned Bibliographic Ontology, 2019 : Lien
  • SPAR Ontologies. One of the first attempts to address the description of the whole publishing domain is the introduction of the Semantic Publishing and Referencing (SPAR) Ontologies. SPAR is a suite of orthogonal and complementary OWL 2 ontologies that enable all aspects of the publishing process to be described in machine-readable metadata statements, encoded using RDF : Lien
  • Exemples d’usage des ontologies SPAR : Lien

FaBiO (the FRBR-aligned Bibliographic Ontology) est une autre ontologie dérivée du modèle FRBR élaborée de 2012 à 2019. Elle fait partie de la suite SPAR (Semantic Publishing and Referencing Ontologies), un groupe d’ontologies elle aussi dédiées à la description bibliographique. Le fonctionnement de FaBiO est prévu en complément de Core FRBR vu précédemment, de CiTO (une ontologie spécifiquement dédiée à la description des citations), de PrisM (une ontologie mise au point par un groupement d’entreprises actives dans le domaine de l’édition), de dcterms et foaf.

Dans FaBiO, les classes sont notées en minuscule, suivies de C en exposant. L’exposant est ici omis et le minuscule conservé. Certaines classes admettent plusieurs classes parentes et sont marquées d’un signe + car présentes en double. La hiérachie des classes Fabio est la suivante :

Pour FaBiO par exemple, une « lettre » ou un « message électronique » constituent des Expressions, partie d’une oeuvre de dimension plus vaste. Un dossier contenant un ensemble de documents d’archives est défini comme « Archival document set« . En ce qui concerne les propriétés, FaBIO distingue celles associées aux aspect physiques des objets (métadonnées structurelles comme EXIF par exemple), et celles associées aux données (métadonnées descriptives proches de Dublin Core) appelées « annotations« . Une variété de supports physiques est envisagée.

Propriétés associées aux objets : has creator, has discipline / is discipline of, has embodiment / is embodiment of, has exemplar / is exemplar of, has format, has language, has license, has manifestation, has part / is part of, has place of publication, has portrayal, has primary subject term, has publisher, has realization / is realization of, has representation / is representation of, has rights, has subject term, is in scheme, is manifestation of, is portrayal of, is scheme of, is stored on / stores

Propriétés associées aux données : abstract, alternate title, date last updated, has acceptance date, has access date, has ArXiv identifier, has character count, has CODEN, has copyright date, has copyright year, has correction date, has creation date, has date, has date collected, has date received, has deadline, has decision date, has deposit date, has DOI, has edition, has eISSN, has electronic article identifier, has embargo date, has embargo period, has ending page, has handle, has identifier, has ISBN, has ISSN, has ISSN-L, has issue date, has issue identifier, has keyword, has modification date, has National Library of Medicine journal identifier, has National Library of Medicine journal title abbreviation, has number, has page count, has page range, has patent number, has PII, has preprint dissemination date, has publication date, has publication year, has PubMed Central identifier, has PubMed identifier, has request date, has retraction date, has season, has short title, has SICI, has standard number, has starting page, has submission date, has subtitle, has title, has translated subtitle, has translated title, has URL, has validity date, has version identifier, has volume count, has volume identifier, has word count, section, uses calendar

Des exemples complètent les spécifications SPAR. La relative complexité de FaBiO fait que son usage concerne des équipes semi-professionnelles.

4.3.3 Ontologies RDA dépréciées (2010-2016)

Maintenant dépréciées, ces ontologies servent toujours l’actuel data.bnf.fr, de même que de nombreuses bases sémantiques créées à cette époque.

4.3.4 Ontologie RDA de seconde génération (2017-)

4.3.5 Ontologie LRMer de l’IFLA

4.3.6 Ontologie RDA-FR (2023-)

Le profil d’application RDA-FR définit les règles pour produire des données RDF valides, conformes aux normes de catalogage émises par la BnF et l’ABES. Exprimé en langage SHACL (Shapes Constraint Language), un standard du W3C spécialement conçu, il permet de spécifier des contraintes sur les cardinalités des propriétés, sur l’utilisation d’un vocabulaire contrôlé spécifique pour une propriété donnée, etc. Par exemple, un groupe informel dans SHACL peut être décrit par la langue habituellement pratiquée, décrite dans l’ontologie.

4.3.7 Autres ontologies dérivées de FRBR

Dérivée des modèles conceptuels FRBR et CIDOC-CRM, l’ontologie FRBRoo voit le jour en 2008. Une adaptation est mise au point et maintenue par l’Université d’Erlangen, conjointement avec CIDOC-CRM. A noter également l’existence de Bibframe et LRMoo.

  • BIBFRAME (bf), 2014 : L’ontologie de la Bibliothèque du Congrès, version au format web de données et FRBR de MARC21 : Lien
  • GND Ontology (Deutsche National Biblothek) : Une ontologie utilisée de manière internationale pour décrire les autorités personne, organisme, sujet et titre : Lien
  • FaBiO and CiTO: ontologies for describing bibliographic resources and citations, Journal of Web Semantics, 17: 33-43, Peroni, S., Shotton, D. (2012) : Lien
  • FRBRoo : intégration de FRBR dans le CIDOC-CRM, 2008. Les classes sont préfixées E et F (F1 Work), les propriétés P et R (R3 is realised in) : Documentation Erlangen, Lien
  • Citation Style Language. Un langage ouvert basé sur XML/XSLT dédié à la normalisation des styles de citation choisis par les diverses revues scientifiques. Mis au point en collaboration avec OpenOffice et divers systèmes de gestion de références bibliographiques (Zotero, Mendeley) : Lien

4.4 Relators (mrel)

  • Espace de nom : http://id.loc.gov/vocabulary/relators
  • Préfixe usuel : « mrel »
  • Relators, Library of Congress : Lien
  • Relator Terms and Dublin Core Elements, DCMI-LOC : Lien
  • MARC relator, Codes de relations en français, Normes MARC 21, Canada : Lien
  • Description sur LOV : Lien

Utilisé essentiellement pour le catalogage en UNIMARC, Intermarc, MARC21 ou RDA, Relator constitue une ontologie et un vocabulaire de 270 rôles susceptibles d’être joués par des individus ou des collectivités lors de l’édition d’une oeuvre créative au sens large (publication d’un livre, enregistrement d’un disque, d’un film ou d’un spectacle). Une verbalisation en anglais est complétée d’un code de trois caractères alphabétiques. Le terme ou bien le code peuvent aussi jouer le rôle de vocabulaire contrôlé en annotation d’un nom, ce qui évite ainsi de devoir saisir plusieurs fois le même nom. La liste des propriétés débute ainsi :

  • abr – Abridger / « Abréviateur » (Terme utilisé pour désigner toute personne, famille ou organisation qui contribue à une ressource en abrégeant ou en condensant l’oeuvre originale de sorte que la nature et le contenu de l’oeuvre originale demeurent inchangés. Pour de modifications substantielles qui engendrent la création d’une nouvelle oeuvre, voir le terme « auteur ».)
  • act – Actor / « Acteur, comédien » (Terme utilisé pour désigner toute personne qui joue dans une présentation musicale ou dramatique, etc.)
  • rcp – Addressee / « Destinataire » (Une personne, famille ou organisation à laquelle une correspondance – partie d’une œuvre – est adressée)

Les propriétés de Relators peuvent être considérées comme des sous-propriétés de Contributor de Dublin Core. Des relations d’affinement sont proposées par la Bibliothèque du Congrès :

Dublin CoreRelators
dc:contributorAbridger, Actor, Adapter, Addressee, Analyst, Animator, Annotator, Announcer, Appellant, Appellee, Applicant, Architect, Arranger, Art copyist, Art director, Artist, Artistic director, Assignee, Associated name, Attributed name, Auctioneer, Audio engineer, Audio producer, Author, Author in quotations or text abstracts, Author of afterword, colophon, etc., Author of dialog, Author of introduction, etc., Autographer, Bibliographic antecedent, Binder, Binding designer, Blurb writer, Book artist, Book designer, Book producer, Bookjacket designer, Bookplate designer, Bookseller, Braille embosser, Broadcaster, Calligrapher, Camera operator, Cartographer, Caster, Casting director, Censor, Choreographer, Cinematographer, Client, Collection registrar, Collector, Collotyper, Colorist, Commentator, Commentator for written text, Compiler, Complainant, Complainant-appellant, Complainant-appellee, Composer, Compositor, Conceptor, Conductor, Conservator, Consultant, Consultant to a project, Contestant, Contestant-appellant, Contestant-appellee, Contestee, Contestee-appellant, Contestee-appellee, Contractor, Contributor, Copyright claimant, Copyright holder, Corrector, Correspondent, Costume designer, Court governed, Court reporter, Cover designer, Curator, Dancer, Data contributor, Data manager, Dedicatee, Dedicator, Defendant, Defendant-appellant, Defendant-appellee, Degree committee member, Degree granting institution, Degree supervisor, Delineator, Depositor, Designer, Director, Dissertant, Distribution place, DJ, Donor, Draftsman, Dubbing director, Dubious author, Editor, Editor of compilation, Editor of moving image work, Editorial director, Electrician, Electrotyper, Enacting jurisdiction, Engineer, Engraver, Etcher, Event place, Expert, Facsimilist, Field director, Film director, Film distributor, Film editor, Film producer, Filmmaker, First party, Forger, Former owner, Founder, Funder, Geographic information specialist, Honoree, Host, Host institution, Illuminator, Illustrator, Inscriber, Instrumentalist, Interviewee, Interviewer, Inventor, Issuing body, Judge, Jurisdiction governed, Laboratory, Laboratory director, Landscape architect, Lead, Lender, Libelant, Libelant-appellant, Libelant-appellee, Libelee, Libelee-appellant, Libelee-appellee, Librettist, Licensee, Licensor, Lighting designer, Lithographer, Lyricist, Makeup artist, Manufacture place, Manufacturer, Marbler, Markup editor, Medium, Metadata contact, Metal engraver, Minute taker, Mixing engineer, Moderator, Monitor, Music copyist, Music programmer, Musical director, Musician, Narrator, News anchor, Onscreen participant, Onscreen presenter, Opponent, Organizer, Originator, Other, Owner, Panelist, Papermaker, Patent applicant, Patent holder, Patron, Performer, Permitting agency, Photographer, Place of address, Plaintiff, Plaintiff-appellant, Plaintiff-appellee, Platemaker, Praeses, Presenter, Printer, Printer of plates, Printmaker, Process contact, Producer, Production company, Production designer, Production manager, Production personnel, Production place, Programmer, Project director, Proofreader, Provider, Publication place, Publisher director, Puppeteer, Radio director, Radio producer, Rapporteur, Recording engineer, Recordist, Redaktor, Remix artist, Renderer, Reporter, Repository, Research team head, Research team member, Researcher, Respondent, Respondent-appellant, Respondent-appellee, Responsible party, Restager, Restorationist, Reviewer, Rubricator, Scenarist, Scientific advisor, Screenwriter, Scribe, Sculptor, Second party, Secretary, Seller, Set designer, Setting, Signer, Singer, Software developer, Sound designer, Sound engineer, Speaker, Special effects provider, Sponsor, Stage director, Stage manager, Standards body, Stereotyper, Storyteller, Supporting host, Surveyor, Teacher, Technical director, Television director, Television guest, Television host, Television producer, Television writer, Thesis advisor, Transcriber, Translator, Type designer, Typographer, University place, Videographer, Visual effects provider, Voice actor, Witness, Wood engraver, Woodcutter, Writer of accompanying material, Writer of added commentary, Writer of added lyrics, Writer of added text, Writer of introduction, Writer of preface, Writer of supplementary textual content
dc:creatorCreator
dc:subjectDepicted (pour un portrait ou une image)
dc:publisherDistributor, Publisher

Une traduction en français des codes est mise à disposition par la bibliothèque du Canada, dans le cadre de la normalisation du format MARC21. Des codes et libellés potentiellement utilisés pour référencer une thèse sont par exemple :

dis (Dissertant / Doctorant), ths (Thesis advisor / Directeur de thèse), dgs (MARC21) (Degree supervisor/ Directeur de thèse), dgc ( Degree committee member / Membre du jury de thèse), dgg (Degree granting institution / Institution émettrice d’un diplôme)

4.5 The Medieval Manuscript Ontology (MeMO)

Publiée en 2020 par le centre interdépartemental CIRSFID de l’Université de Bologne, l’ontologie MeMO est exprimée en OWL 2 DL et s’appuie sur les ontologies SPAR. Un cadre de travail est fourni pour décrire formellement les codex et manuscrits médiévaux décrits dans le catalogue du projet IRNERIO.

Progetto IRNERIO donne accès en faible et haute résolution aux codex et manuscrits de la collection du Real Collegio di Spagna, un collège actif à Bologne à partir du XIVe siècle, placé sous le patronnage royal de la couronne d’Espagne et ouvert aux étudiants espagnols. L’ontologie est centrée sur un ensemble de concepts : codex, manuscrit, folio (pagination), texte, glose et annotation, définis précédemment dans le modèle FRBR. La complexité du corpus se trouve ainsi modélisée de manière précise et logique sur le web.

Les entités MeMO réutilisent les interprétations FaBiO des entités FRBR en tant que super-classe. En particulier: le manuscrit, le texte et la glose sont conceptualisés comme sous-classes de « fabio:Expression », car ils sont porteurs d’un contenu et ne sont pas liés à un format précis, alors que le codex et le folio sont conceptualisés comme sous-classe de « fabio:Manifestation ». Ils contiennent des informations sur le format et leurs fonctions sont celles de conteneurs pour les expressions.

  • The Medieval Manuscript Ontology (MeMO), 2020 : Lien
  • Codex: 026, 1 – In Libros de anima Aristotelis expositio, 003r : http://irnerio.cirsfid.unibo.it/browser/026/003r/
  • Barzaghi, S., Palmirani, M., & Peroni, S. (2020). Development of an ontology for modelling medieval manuscripts: the case of Progetto IRNERIO. Umanistica Digitale, 4(9), 117–140. https://doi.org/10.6092/issn.2532-8816/11187 : Lien
Codex: 026, 1 – In Libros de anima Aristotelis expositio, par Thomas d’Aquin, 003r, cliquer sur « Show Hi Res » : Lien

4.6 Description des performances et œuvres musicales

Quelque soit son genre, la musique peut être considérée comme une sous-catégorie d’objet culturel. Il est possible de distinguer le cas des partitions, celui des performances et spectacles, celui des disques vendus et prétés en médiathèques. Plusieurs ontologies dédiées spécifiquement à la description de la représentation, du processus créatif et éditorial de la musique sont mises au point en divers lieux.

4.6.1 Event (event)

  • Espace de nom : « http://purl.org/NET/c4dm/event.owl# »
  • Préfixe : « event »
  • Documentation : https://motools.sourceforge.net/event/event.html
  • Dépendences : « time », « geo »
  • Créateurs : Yves Raimond, Samer Abdallah
  • Date : 2007

Créé en 2007 par le Centre for Digital Music de Londres, cette ontologie rend possible la description d’événements divers, notamment culturels. L’ontologie se montre volontairement vague et brève. Elle prend en compte la notion d’événements réifiés. Un événement principal (comme par exemple un festival) peut être défini. Des événement secondaires peuvent en découler. Les événements (ou sous-événements) peuvent alors être géolocalisés et définis dans le temps par leur caractère instantané ou par leur durée. Un événement peut dépendre d’agents actifs (au sens « foaf:Agent » : personne, groupe, organisation) et de facteurs, définis comme participant de manière passive à l’événement (les spectateurs). Un exemple de facteur littéral peut être par exemple une température. Des produits peuvent résulter de l’événement, possiblement décrits avec BIBO :

Les projets indiqués comme complémentaires, consécutifs ou liés à celui-ci sont Music Ontology, Chord Ontology, FOAF et BIBO vu précédemment.

  • The Event Ontology, 2007 : Lien
  • WGS84 Geo Positioning (geo), W3C, Dan Brickley, 2003 : Lien1, Lien2
  • Time Ontology (time), W3C, histoire complexe, 2006-2022 : Lien
Modèle de données de Event

4.6.2 L’ontologie Doremus (mus)

Financé par l’ANR, le projet DOREMUS a réuni pendant trois ans, de 2014 à 2017, la Bibliothèque Nationale de France, Radio France et la Philharmonie de Paris, ainsi que plusieurs universités et instituts de recherche. Les catalogues des trois institutions établis en MARC par des catalogueurs professionnels sont alignés et un portail de données est généré. L’ontologie DOREMUS est une extension de FRBRoo appliquée spécifiquement au domaine musical. Un Sparql endpoint de même qu’une recherche à facettes motorisés par Virtuoso rendent possible la recherche et la navigation.

  • Portail de données DOREMUS : Lien
  • DOREMUS Ontology : Lien, sur GitHub : Lien
  • DOREMUS Vocabularies : Lien
  • DOREMUS : We create a FRBRoo-based data model and multilingual controlled vocabularies, specifically designed for music, along with documentation, examples and tutorials : Documentation
  • TripleStore Doremus : Lien

4.6.3 The Music Ontology (mo)

Développée de 2007 à 2013 par le Centre for Digital Music de Londres, The Music Ontology se donne comme objectif de rendre possible la création de bases de connaissances cohérentes et interopérables à partir de plusieurs bases de données comme Musicbrainz, Wikipédia, des éléments du catalogue de la BBC, les données de réseaux sociaux. Elle s’utilise de manière conjointe avec Dublin Core, Timeline, Event et FOAF. Des exemples d’usages sont donnés.

  • The Music Ontology : Lien
  • Music Ontology, le wiki : Lien
  • DBTune.org : Lien

4.6.4 Performed Music Ontology (pmo)

Le projet Performed Music Ontology résulte de la collaboration de l’Université de Stanford, de la Music Library Association (MLA), de l’Association for Recorded Sound Collections (ARSC), de la Bibliothèque du Congrès et d’institutions partenaires du projet Linked Data for Production (LD4P). Le vocabulaire est une extension de BIBFRAME (bf), l’ontologie de la Bibliothèque du Congrès qui établit un alignement avec le format de catalogage MARC21 en usage dans de nombreuses bibliothèques. Un accent particulier est mis sur la clarification et l’extension de la modélisation des œuvres, des événements et de leurs contributeurs.

  • Performed Music Ontology : Lien

Au-delà du choix de l’ontologie qui semble reposer essentiellement sur des considérations nationales, se pose la question de la mise à jour des données.

4.7 CiTO, the Citation Typing Ontology

  • Espace de nom : « http://purl.org/spar/cito# »

Une ontologie compatible avec SPAR, conçue pour structurer une base de donnée de citations. Un ensemble de 9 classes est défini :

Suivie d’une hiérarchie de propriétés finement renseignées :

  • CiTO, the Citation Typing Ontology, un vocabulaire SPAR dédié spécifiquement aux citations bibliographiques et à l’étude de leur sémantique : Lien
  • Examples of use of CiTO : Lien

4.8 D’autres ontologies pour les bibliothèques, l’édition et la recherche

  • PRISM, The Publishing Requirements for Industry Standard, jeu de métadonnées défini à plat en XML et fréquemment utilisé (data.BnF) en complément de Dublin Core : Lien
  • MADS (Metadata Authority Description Schema in RDF) : une ontologie produite par la Bibliothèque du Congrès pour décrire simplement des autorités (auteurs de textes et affiliations, personnes et organismes) : Lien
  • Nature Publishing Group ontology (npg) 2015, l’ontologie de SciGraph, le portail de données de Springer Nature. Une ontologie promue par un éditeur : Lien1, Lien2
  • ModSci, Modern Science Ontology 2019, powers two projects for semantically representing scholarly information: Open Research Knowledge Graph 1 and OpenResearch.org
  • COAR, Controlled Vocabularies for Repositories, 2016 – 2023 : Lien. Un vocabulaire proposé par une confédération d’entrepôts institutionnels.

5. Organiser les collections : les métiers des archives, des musées, de l’archéologie, de l’histoire

Les métiers des archives, musées, de la recherche en archéologie et en histoire se distinguent nettement de ceux des bibliothèques. Les artéfacts et œuvres à référencer se montrent généralement uniques. Les archives sont le fruit des activités de personnes, de familles ou de collectivités. Elles s’accumulent en quelque sorte naturellement au cours de l’existence et des tris sont faits entre les archives dont la préservation est souhaitée sur le court, le moyen ou le long terme.

Les supports naturels de stockage des documents anciens sont des cartons rangés dans des étagères et organisés en collection. Une faible part de ces contenus peut se trouver numérisée. Les normes de l’archivage sont essentiellement des formats dérivés de XML : Description archivistique encodée EAD (1993) pour les documents et EAC-CPF (2004) pour décrire les personnes, groupes et organisations. Plusieurs formats viennent plus ou moins tenter de bousculer l’existant pour exposer les métadonnées dans le cadre du web sémantique.

  • EAC-CPF (Encoded Archival Context – Corporate Bodies, Persons and Families) Vocabulary Specification 1.1, 2013 : Dérivé du format XML EAC-CPF, complémentaire d’EAD : Lien

5.1 Modèle de référence du CIDOC

Sur Wikidata : Q624005

Le Modèle Conceptuel de Référence du CIDOC (CIDOC CRM) émerge en 1994 des travaux du Groupe de Documentation sur les Standards du Comité International de la Documentation (CIDOC), un groupe d’intérêt spécial (SIG) de l’International Council of Museums (ICOM). Le collectif s’oriente vers les méthodes orientées objet à partir de 1996. La première version stable du CIDOC Conceptual Reference Model (CRM) est proposée en 1999. Un processus de standardisation débute en 2000 et le site web publie les différentes versions à partir de la version majeure « 4.0 ». La publication devient norme ISO 21127 en 2006. Le vocabulaire est décliné par l’Université d’Erlangen en une version OWL dénommée Erlangen CRM (ECRM), dont les versions successives sont gérées sous Github depuis 2013. Cette ontologie de domaine entend être capable de décrire tout objet culturel, particulièrement ceux en relation avec les musées et l’archéologie. Wikidata aligne ses propriétés avec Erlangen CRM, par exemple : Q14819852 (Birth) est déclaré identique (owl:sameAs) à E67_Birth.

La publication de CIDOC CRM constitue une étape qui a grandement influencé l’évolution du modèle FRBR (avec FRBRoo puis RDA) ou bien Wikidata, mais CIDOC-CRM continue sa vie propre car le modèle se montre particulièrement adapté à la notation des dates, élément fréquemment connu de manière approximée dans le domaine.

La version courante Erlangen CRM est ici évoquée. L’ontologie est depuis 2006 normalisée ISO 21127. Les classes sont au nombre de 85 et il y a 283 propriétés. L’ontologie est depuis 2013 gérée sur github. La syntaxe mêle identifiant et texte en anglais. Les propriétés et exemples de valeurs de chaque classe sont décrites dans la documentation. Les propriétés sont de la forme P suivi d’un chiffre comme par exemple P72 has language (is language of) ou bien P102 has title (is title of). On a sous E1 CRM Entity la hiérarchie des classes :

Plusieurs éléments remarquables apparaissent à la lecture du modèle conceptuel. Quelques classes comme E21 Person, E34 Inscription ou E35 Title de même que des portions de hiérarchies comme E73 Information Object et E90 Symbolic Object admettent plusieurs classes parentes et se retrouvent ici dupliquées et marquées du signe « + » dans la hiérarchie.

La classe Thing (E70 Thing) ne se trouve pas à la racine de l’arborescence mais à l’intérieur de celle-ci. Des notions comme les événements (E5 Event) ou les acteurs (E39 Actor) sont décrites indépendamment de Thing. Les organisations sont vues comme des sortes de groupes (E40 Legal Body). La classe (E55 Type) de E70 Thing correspond à la possibilité d’étendre CIDOC CRM à des ontologies et thesauri spécifiques de domaines. CIDOC CRM peut servir de vocabulaire d’alignement comme le propose par exemple l’interface OntoME du LARHA. Des alignements et collaborations concernent plusieurs domaines parmi lesquels FRBRoo, PRESSoo ou CRMsoc pour la modélisation des phénomènes sociaux peuvent être cités. La complexité de cette ontologie fait que son usage reste réservé aux personnes ayant suivi une formation. Documentation, sites et outils :

  • CIDOC-CRM : Le modèle conceptuel de référence pour les objets patrimoniaux des musées et de l’archéologie : Lien;
  • CIDOC-CRM : Modèles compatibles et collaborations : Lien
  • CIDOC-CRM : FRBRoo / LRMoo : Lien
  • Hiérarchie des classes CIDOC CRM par Sparna Labs : Lien
  • Jeu de cartes CIDOC CRM Game – édition numérique, cosortium MASA : Lien
  • Tutoriel CIDOC-CRM Sparql sur les données du British Museum à collection.britishmuseum.org, Thomas Francart, 2018 : Lien
  • Erlangen CRM : The Erlangen CRM / OWL is an interpretation of the CIDOC CRM in a logical framework attempting to be as close as possible to the text of the specification : Lien
  • EAD mapping to CIDOC/CRM,
  • OntoME (Ontology Management Environment, Larhra). Un environnement pour aligner les ontologies des domaines de l’histoire, la géographie, les bibliothèques, les archives et autres données culturelles, notamment sur CIDOC CRM : Lien

Fondé en 2012 et labellisé par Huma-Num, le consortium MASA (Mémoire des Archéologues et des Sites Archéologiques), MASA+ depuis 2023, œuvre au service de la communauté archéologique à laquelle il propose un écosystème numérique accompagné d’un livre blanc réunissant les bonnes pratiques liées à chaque étapes du cycle de vie des données. Parmi les membres notables du consortium se trouvent l’INRAP et l’INHA. Basé sur CIDOC-CRM, l’interface OpenArcheo permet l’interrogation à l’aide d’un moteur classique, de même que la recherche à l’aide de SPARQL.

  • OpenArchaeo Fédération, interrogation fédérée de plusieurs bases archéologiques : Lien

L’INHA (Institut National d’Histoire de l’Art) a développé au cours de ces dernières années de nombreuses bases de données initiallement disjointes. Des efforts sont alors entrepris pour rendre interopérable les métadonnées et les images en haute résolution acquises au cours de l’élaboration des diverses bases. La plateforme AGORHA est ainsi montée, dont une version renouvelée voit le jour en 2022. La possibilité d’exporter les métadonnées des items et listes d’items en CIDOC-CRM est intégrée.

  • Les bases de données de l’INHA, une longue histoire, Pierre-Yves Laborde, 2021 : Lien
  • La nouvelle version d’AGORHA : détails de choix d’usage et technologiques, Antoine Courtin, 2021 : Lien

5.2 Records in Context Q30216914

Elaboré depuis 2013 par le Groupe d’experts sur la description archivistique (EGAD) du Conseil international des Archives (ICA), Records in Contexts (RiC) est un standard international de description archivistique basé sur un modèle conceptuel. Il a pour objectif à terme de remplacer les quatre normes actuelles : ISAD-G, ISAAR (CPF), ISDF et ISDIAH, publiées entre 1994 et 2008. Il permet une description plus fine et détaillée des archives.

RiC se compose de plusieurs documents :

  • une introduction à la description archivistique (RiC-iad) dans une version provisoire 0.2 publiée en décembre 2021 ;
  • un modèle conceptuel abstrait et général (RiC-CM) définissant les entités, leurs attributs et les relations qui peuvent les lier, soumis à un appel à commentaires pour la version RiC-CM 0.2 jusqu’au 31 janvier 2022 ;
  • une ontologie en OWL (RiC-O), transposition technique du modèle conceptuel en un modèle directement utilisable avec les règles et vocabulaires associés, pour produire des jeux de métadonnées en RDF, avec une version RiC-O 0.2 publiée en février 2021 ;
  • un manuel d’application (RiC-AG) qui sera rédigé après la publication de versions stabilisées de RiC-CM et RiC-O.

Des applications informatiques conformes au modèle sont attendues.

  • Records in Contexts : un nouveau modèle de description archivistique, 2022 : Lien
  • SemWeb.Pro 2020 – Sémantisation des métadonnées archivistiques, Florence Clavaud, Thomas Francart, Vidéo, 18:23 : Lien
  • RiC-CM, RiC-O : les Archives se dotent de leur modèle conceptuel (Records in Contexts), Thomas Francart, 2020 : Lien
  • PIAAF (Pilote d’interopérabilité pour les Autorités Archivistiques françaises) : démonstrateur : Lien

5.3 Autres ontologies et ressources des archives et de l’histoire

  • ARKIVO Ontology Specification 0.2, par Laura Pandolfo, Luca Pulina and Marek Zieliñski, 2017. Concue en OWL2 en vue de décrire les documents d’archives, ARKIVO prend en compte simultanément la structure hiérarchique des collections et les métadonnées riches créées lors de l’a numérisatistion des contenus’étude des textes. Parmi ces dernières figurent les gens, les lieux, les événements mentionnés. ARKIVO intègre les classes et propriétés d’autres ontologies fondamentales parmi lesquelles Dublin Core metadata elements (DCMI), Friend Of A Friend (FOAF), schema.org, the Bibliographie Ontology (BIBO), GeoNames Ontology et LODE. L’espace de nom est « http://purl.org/arkivo ». : Lien
  • Historical Hierarchical Territories (HHT). To represent hierarchical historical territorial divisions, without having to know their geometry, William Charles, Nathalie Aussenac-Gilles, Nathalie Hernandez, IRIT : Lien
  • Matterhorn tools : Lien
  • PACTOLS, vocabulaires de l’archéologie : Lien
  • Symogih.org (Larhra, histoire), ontologie alignée sur Cidoc CRM : Connaissance > (Biographie, Représentation spatiale de l’information, Types d’information génériques, Vie des institutions, Vie économique, Vie intellectuelle, Vie religieuse, Vie sociale) : Lien
  • PREMIS : L’ontologie de la bibliothèque du Congrès dédiée à la préservation des objets numériques : Lien
  • PeriodO : Lien (périodes historiques)
  • Art and Rare Materials Arrangement Vocabulary : https://ld4p.github.io/arm/core/vocabularies/arrangement/0.1/arrangement.html
  • Art & Architecture Thesaurus, Getty as LOD (musées) : Lien, Lien
  • Vocabulaires du Getty Research Institute (utilisés par la Bibliothèque du Congrès) : Lien

6. Autres métiers de la recherche

6.1 Biologie et santé

La biologie, de même que les métiers de la médecine, ont connu une adaptation des anciens thésaurus et outils documentaires aux nouveaux formats. Ainsi, le vocabulaire Medical Subject Headings (MESH) est devenu accessible en RDF et possible à interoger à l’aide de SPARQL. Parmi les initiatives visant à répertorier les ontologies utilisées dans ces domaines, le site Bioportal fait référence. https://bioportal.bioontology.org/ Open Biomedical Ontologies (OBO) fait référence.

Créée en 2009, l’Agence du numérique en santé accompagne la transformation numérique du système de santé français aux côtés des acteurs concernés des secteurs sanitaire, social et médico-social, privés comme publics, professionnels ou usagers. Elle ouvre en 2020 son Serveur Multi-Terminologie (SMT) destiné aux organisations publiques ou privées consommatrices des terminologies dans les secteurs de la santé, du médico-social et du social. Le serveur rend interrogeable simultanément via un moteur à facettes et via SPARQL une quarantaine de terminologies satisfaisant à des critères d’interopérabilité. Sont ainsi rendus accessibles et possibles à télécharger des dictionnaires (listes à plat), des taxonomies (listes hiérarchisées de termes), des thésaurus, terminologies et ontologies de diverses spécialités biomédicales.

Phast poursuit son action de diffusion de SNOMED CT en France, 2017 : Lien
  • Medical Subject Headings (MeSH) RDF is a linked data representation of the MeSH biomedical vocabulary produced by the National Library of Medicine. MeSH RDF includes a downloadable file in RDF N-Triples format, a SPARQL query editor, a SPARQL endpoint (API), and a RESTful interface for retrieving MeSH data : Lien
  • BioPortal : the world’s most comprehensive repository of biomedical ontologies : Lien
  • Open Biomedical Ontologies : Lien
  • The OBO Foundry, répertoire d’ontologies de différents domaines de la biologie et de la médecine compatibles entre elles : Lien
  • SNOMED Clinical Terms, ensemble organisé de plus de 300 000 concepts à disposition des acteurs de santé : Lien
  • NCI Thesaurus couvre le domaine du cancer : Lien
  • Unified Medical Language System, NLM : Lien1, Lien2
  • Disease Ontology : Lien
  • GENEONTOLOGY; le consortium GO un modèle informatique des systèmes biologiques du niveau moléculaire au niveau organisme entier, multi-spécifique : Lien
  • The CWRC Illness and Injury Ontology : Lien
  • BIO2RDF, Linked Data for the Life Sciences. Une base sémantique pour répertorier les bases de données en biologie : Lien1, Lien2
  • Healthcare metadata – DICOM ontology, (Digital Imaging and Communications in Medicine) : Lien
  • Serveur Multi-Terminologies, Agence du numérique en santé : Lien

6.2 Transports

  • ERA vocabulary. Version 3.0.0. European Union Agency for Railways : Lien
    • SWEP Live 1ere session – 14 mars 2024 – Ghislain Atemezing (ERA) Semantic On Rails, 2024 : Lien

6.3 Données de la recherche : DCAT, Data Catalog vocabulary

DCAT est une ontologie RDF du W3C visant à faciliter et normaliser la description des jeux de données dans les entrepôts de données universitaires et gouvernementaux. Des jeux de données peuvent ainsi être décrits et catalogués de manière standard, ce qui facilté d’éventuels échanges et réutilisations. Des exemples de tels entrepôts sont « https://data.europa.eu/fr« , « data.gov.fr », . L’Europe a publié son extension de DCAT, appelée DCAT-AP.

  • Data Catalog Vocabulary (DCAT) – Version 3, W3C, 2024 : Lien
  • DCAT Application Profile for data portals in Europe : Lien
  • DCAT-US Schema v1.1 (Project Open Data Metadata Schema) : Lien

7. Quelques outils du web de données

Semantic Web browsers like DISCOMarbles, the OpenLink Data Explorer, or the Tabulator. ?

7.1 Répertoires d’ontologies

Des sites tels que Linked Open Vocabularies (LOV) permettent d’explorer plus de 700 ontologies publiquement accessibles, parmi lesquelles il est théoriquement possible de sélectionner des classes ou les propriétés souhaitées. Les relations entrantes et sortantes, de même que les dates de création sont visualisés à l’aide de l’interface. Les ontologies sont écrites en anglais généralement; certaines comme par exemple l’ontologie de Wikidata gèrent de remarquable manière le multilinguisme et présentent un aspect participatif.

Il convient de choisir des ontologies présentant de nombreux liens entrants si l’on souhaite utiliser une ontologie populaire, susceptible d’être aisément interopérable. Dans le domaine de la biologie, le portail BioPortal référence plus de 800 ontologies.

A gauche le graphe des ontologies qui se servent ou citent BIBO;
à droite, celles utilisées par BIBO, une ontologie spécialisée dans la description simple des objets des bibliothèques : Lien
  • Linked Open Vocabularies (LOV), explorez l’onglet Vocabs (liste des ontologies, visualisation des liens entrant et sortants) et l’onglet Terms (liste de Classes et de propriétés) (700 ontologies, 29900 classes, 37700 propriétés en 2020), par l’Ontology Engineering Group de Madrid : Lien
  • BARTOC.org, Le répertoire d’ontologies de l’Université de Bâle : https://bartoc.org/
  • BioPortal, ontologies du domaine de la biologie et des biotechnologies : Lien
  • Open Metadata Registry : système pour auto-archivage des ontologies : http://metadataregistry.org/
  • Moteur de recherche d’espace de nom : http://prefix.cc/

7.2 Visualiseurs, éditeurs d’ontologies

Au niveau informatique, une modélisation du type Modèle Entité-Association de l’indexation peut apporter une aide dans les cas complexes. La démarche s’avère équivalente à celle entreprise lors de l’élaboration d’une bases de données relationnelle classique. Un modèle de données susceptible d’évoluer et d’être versionné est construit. Il donne lieu à un diagramme qui résume les choix descriptifs faits. L’avis conjoint de plusieurs spécialistes de la question peut s’avérer nécessaire.

  • WIzard for DOCumenting Ontologies (WIDOCO), un truc pour documenter une ontologie, par Daniel Garijo Verdejo : Lien
  • OpenLink Structured Data Sniffer (OSDS), disponible sous forme d’extension de navigateur, ce logiciel permet d’afficher les métadonnées intégrées à une page du web sans avoir à examiner le code source (OpenLink Software Inc, Virtuoso) : Lien
  • Protégé, l’éditeur d’ontologie open source (École de médecine de Stanford) : Lien
  • WebProtégé, une interface en ligne de Protégé hébergée à Stanford : Lien
    • WebProtégé User Guide : Lien
  • yEd : un éditeur de diagrammes de graphes de haute qualité, gratuit, disponible sur tous systèmes d’exploitation : Lien
  • WebVOWL : Visualisez une ontologie au format OWL depuis le navigateur. Une ontologie peut être explorée à l’aide d’un simple navigateur : Lien
  • LodLive : Visualisez graphiquement les liens et classes d’items du web de données. Explorer par exemple « Le corbeau » (1845) d’Edgar Allan Poe : Lien
  • Bienvenue aux sparna-labs ! : Le laboratoire de Thomas Francart : Lien
Ontologie Modern Science (ModSci) vue avec WebVOWL : Lien

7.3 Triplestores, gestionnaires de contenus

Des applications particulières rendent possible la transformation d’une base de donnée relationnelle classique en une base du web sémantique. Ainsi, D2RQ permet la conversion de données relationnelles en données sémantiques et rend possible l’interrogation via un triplestore. Un autre logiciel nommé Ontop assure des fonctionnalités équivalentes. En aval de la base, des contenus structurés à l’aide d’ontologies et entrés dans le système peuvent alors être interrogés à l’aide de SPARQL. A noter en alternative de SPARQL le choix possible de la base Neo4j et du langage de requête CYPHER. Si omeka S ne permet pas en l’état une recherche SPARQL, il se montre adapté à l’intégration des multiples classes et propriétés du web sémantique.

  • D2RQ : Accessing Relational Databases as Virtual RDF Graphs : Lien
  • Ontop : traduit des requêtes SPARQL exprimées sur des graphes de connaissance en requêtes SQL exécutées sur des bases relationnelles. Il s’appuie sur le langage de mapping R2RML du W3C pour tirer partie d’ontologies légères : Lien
  • Cypher Query Language, Neo4j : Lien
  • Omeka S User Manual , Docs > Resources > Vocabularies, un gestionnaire de contenu pour gérer un corpus à l’aide d’ontologies : Lien
    • Module Sparql : Lien
  • Module Value Suggest (VIAF, Geonames) d’Omeka S : Lien

8. De l’ontologie en philosophie aux ontologies du web sémantique (1956 – 2023)

Conclusion

Ce tour d’horizon semble indiquer que les choix en matière d’ontologie se montrent fortement liés aux pratiques de divers groupes et communautés. Les choix se montrent tout autant sociaux, qu’économique et politiques. Open Graph de Facebook complété de « Schema.org » en JSON-LD, se montrent d’un usage vivement conseillé (par Google) pour ceux qui souhaitent optimiser le référencement des pages de leur site web. Un affichage riche dans les moteurs les plus populaires devient alors possible. Des produits culturels ou commerciaux peuvent ainsi se trouver mis en avant dans les résultats de recherche. Lorsqu’un thésaurus ou un dictionnaire doit être élaboré, l’usage de SKOS et des outils afférents est vivement conseillé. Si finalement un corpus de recherche, constitué d’entités de diverses natures, doit être élaboré, deux stratégies se montrent possible :

  1. Utiliser un assemblage d’ontologies fondamentales comme comme par exemple DC, BIBO, FOAF, relationship, complété si besoin de propriétés d’ontologies comme celles de DbPedia, Wikidata ou d’autres, pour décrire conjointement une variété d’entités : agents (personnes, familles, groupes, organisations), de documents (photo ancienne, correspondance, manuscrit, dossier, fonds, objets patrimoniaux, livres, articles, objets manufacturés), d’événements (cérémonie, concert, affaires politiques), etc. C’est la technique retenue par des organismes comme la BnF ou l’ABES et d’autres, pour publier notamment les bases sémantiques bnf.data.fr et IdRef.
  2. Se servir d’une seule ontologie comme le proposent par exemple Wikidata, DBPedia ou « Schema.org », l’INHA avec CIDOC-CRM, RDA pour les professionnels des bibliothèques culturelles et scientifiques.

Chacun de ces choix représente finalement un coût, d’autant plus élevé que le nombre d’éléments à décrire est important, que la description souhaitée est précise, que les données doivent être liées entre elles d’étroite manière. Sans doute, un équilibre doit il être trouvé entre la précision des descriptions et le temps nécessaire au catalogage. Très bons choix stratégiques, structurels et ontologiques des ontologies, en quelque sorte !

2 Replies to “Les ontologies informatiques : des outils pour donner du sens aux données”

Laisser un commentaire