Des ontologies pour les sciences humaines… et aussi pour les autres

Le web sémantique illustré par un graphe

Initialement, l’ontologie désigne une branche de la philosophie qui, dans son sens le plus général, s’interroge sur la signification du mot «être», à l’essence de choses possiblement abstraites. Une question considérée comme première dans le temps et dans l’ordre de la connaissance est «Qu’est-ce que l’être ?». La discipline se trouve abordée par Aristote notamment, dans le chapitre gamma de son fréquemment commenté ouvrage Métaphysique. La sémantique du terme semble avoir varié au cours du temps et des auteurs, dans le domaine de la philosophie elle-même. Cependant, les publications en 1991 d’Ewald Lang (Stuttgart) et de David Powers (Erlangen), de même que la synthèse de Tom Gruber en 1993 (Stanford) montrent le réemploi du mot, dans les milieux de l’intelligence artificielle, au début des années 90.

Une ontologie informatique désigne alors un type de document (un méta-document), qui spécifie les propriétés des entités de diverses natures dans un corpus. La logique mise en œuvre se montre purement descriptive et factuelle. On appelle “chose”, “thing”, “item”, “élément”, “entité” ou bien “res” (chose en latin) quelque chose à décrire, éventuellement caractérisé par une notice. Les entités (sortes de choses) classiquement distinguées sont des personnes, des familles, des organisations, des lieux, des bâtiments, des livres, des œuvres musicales, des œuvres d’art, ou bien des connaissances élémentaires stockées dans un dictionnaire. Des classes organisées possiblement de manière hiérarchique permettent de catégoriser l’ensemble des entités à décrire.

C’est en 1990 que le premier serveur Web/HTTP nommé CERN httpd est créé. Les idées principales du web sémantique sont proposées à partir de 2006 par Timothy Berners-Lee, épaulé du W3C (World Wide Web Consortium). La proposition est faite que les ontologies, de même que les classes et propriétés, ainsi que les notices des entités soient identifiées à l’aide d’une URL du type IRI (Internationalized Resource Identifier). Le web sémantique repose sur un certain nombre de formats et d’outils mis au point progressivement, sur une période de 20 ans environ.

Le W3C est en effet créé en 1994, et il joue un rôle clé dans la mise au point des standards du web, en collaboration avec l’Internet Engineering Task Force. Une version brouillon de RDF – Resource Description Framework est publiée en 1997. Ce format définit les principales briques logiques. La même année, l’École de médecine de l’université de Stanford sort la première version de son éditeur d’ontologies Protégé. Cet outil va contribuer à préciser et tester le fonctionnement.

En 2004, le W3C publie un nouvel ensemble de recommandations sur RDF visant à remplacer celles de 1999. Le format XML est publié en version 1.0 en 1996 (1ère des 9 versions de 1.0), et passe en 1.1 en 2004. Les fichiers RDF peuvent alors à partir de cette date être formalisés (sérialisés) en ub XML standard. Publié dans une première version en 1999, le format RDFS (RDF Schema) sort en version 1.0 en 2004. Il spécifie formellement les notions de “classe” et de “sous-classe“, de “propriété” et de “sous-propriété“, de “domaine d’application“. L’appellation “web de données” en lieu et place de “web sémantique” est conseillé à partir de 2006.

Un format important pour la structuration des dictionnaires, thésaurus et classifications est SKOS (Simple Knowledge Organization System). Proposé sous forme de recommandation par le W3C à partir de 2006, la dernière et définitive version date de 2009. Proposé à partir de 2004, les langages de description des ontologies OWL (Web Ontology Language) sortent en de multiples versions avant de trouver une certaine stabilité. OWL2 est publié en 2009 sous forme de brouillon, et en 2012 en version stable. Le format devient implémenté sur Protégé. Dédié à l’interrogation des bases sémantiques, le langage de requêtes SPARQL sort sous forme de brouillon en 2004. La version de référence (1.1) et définitive date de 2009.

Le W3C contribue à partir d’idées, pour certaines préexistantes et pour d’autres résolument innovantes, à rendre progressivement populaire et solidement formalisé le web de données et les ontologies de 2002 à 2012 environ. On le voit bien, l’aventure ne s’est pas faite sans tâtonnements, enthousiasmes et désillusions.

Composé d’une soixantaine d’employés, le W3C se trouve actuellement réparti sur trois sites : au MIT (Computer Science and Artificial Intelligence Laboratory), à l’Université de Keïo (press release) et à Sophia-Antipolis (ERCIM). L’INRIA (Institut national de recherche en sciences et technologies du numérique) joue un rôle important dans la diffusion des divers standards du web.

Le W3C de 91 à 95 : Lien
Standards autour de XML et du web sémantique de 1996 à 2012

L’idée principale d’une base de donnée sémantique est que toute déclaration descriptive, toute assertion relative à une chose (un document, un objet, un lieu, une personne, un organisme, un concept), peut être réduite à un triplet de la forme SPO (“sujet“, “prédicat“, “objet“), établissant ainsi une relation entre l’entité à décrire, la propriété de l’objet et la valeur de la description.

Des exemples significatifs de triplets sémantiques pourraient être 1/ (“Aristote”, “est du type”, “personne”), 2/ (“Métaphysique-livre”, “est du type”, “livre”), 3/ (“Métaphysique-livre d’Aristote”, “a pour auteur”, “Aristote”), 4/ (“Éditions Flammarion”, “est l’éditeur de”, “Métaphysique-livre d’Aristote”). Les premiers et deuxièmes triplets déterminent la classe de l’entité : la nature du sujet est spécifiée, ici “personne” et “livre”. Les triplet 3 et 4 sont des propriétés et permettent de décrire respectivement, un livre particulier et un éditeur. Elles lient entre elles des entités de différentes natures.

On remarque le caractère logiquement bijectif de certains triplets. Bien que verbalisées différemment, les deux déclarations suivantes se montrent logiquement identiques : 3/ (“Métaphysique-livre d’Aristote”, “a pour créateur”, “Aristote”) et 5/ (“Aristote”, “est l’auteur de”, “Métaphysique-livre d’Aristote”). “Aristote” est dans un cas “objet” et dans l’autre “sujet”. Les deux assertions ont même valeur logique. Elles peuvent donc être modélisées par un graphe dont les arêtes sont bijectives.

Un autre point intéressant est la possibilité de créer des inférences. On déduit ainsi de 5/ et de 4/ le triplet 6/ (“Aristote”, “a pour éditeur”, “Éditions Flammarion”), ou bien le triplet logiquement équivalent 7/ (“Éditions Flammarion”, “est éditeur de”, “Aristote”).

Cependant, avec le web sémantique, ce genre de raisonnement se trouve pratiqué, non sur des libellés, mais sur des IRI. Des exemples d’IRI et de pages descriptive d’Aristote dans diverses bases sémantiques sont par exemple https://www.wikidata.org/wiki/Q868 (wikidata), https://data.bnf.fr/ark:/12148/cb13091331s (data.bnf.fr), https://www.idref.fr/026690276 (IdRef). Un des avantages de ceci est qu’il devient alors possible de s’abstraire en partie de la notion de langue dans les raisonnements.

Mais revenons à Aristote, si vous le voulez bien. On sous entend dans les exemples précédents que “Métaphysique” est un livre et non une discipline scientifique. Il convient dans une base de connaissance de lever les ambiguïtés du langage oral. Les lecteurs, créateurs, développeurs et diffuseurs d’ontologies se servent généralement des conventions suivantes :

  1. Sujet : Entité identifiée de manière unique par son IRI et décrite à l’aide de multiples triplets. La Classe d’une entité peut être définie à l’aide d’une propriété spéciale intitulée “nature de”, “est un”, “type”, “classe”, “instanciation”. Une Classe, encore parfois appelée Type vient décrire les sortes ou catégories d’objets décrites dans une base sémantique. Les Classes sont possiblement liées entre elles par des relations de subsomption. Une hiérarchie de classes permet de spécifier des propriétés qui vont du plus général au plus spécifique. La classe la plus générale présente à la racine d’une hiérarchie de classes est le plus souvent nommée Thing, Something, ou bien Entity lorsque l’ontologie est écrite en anglais. Les classes sont généralement notées avec la première lettre de leur nom en majuscule et en “CamelCase”.
  2. Prédicat : Le terme de prédicat (encore appelé propriété ou champs selon le contexte) désigne le mot ou le verbe susceptible de décrire le sujet. Tout prédicat est identifié dans une base de connaissance par son IRI et se trouve également défini dans l’ontologie. Parfois communes à un ensemble de classes, parfois spécifiques d’un type particulier de donnée, les propriétés rendent possible la description des sujets et des relations entretenues avec l’objet. Une propriété telle qu’isbn10 par exemple qualifie spécifiquement un objet de la classe Livre, éventuellement sous-classe de Document publié. Une série unique de 10 chiffres est attendue en valeur de cette propriété. C’est l’objet des ontologies que de définir des jeux de propriétés applicables à des classes particulières d’objets, de spécifier la nature autant sémantique qu’informatique des renseignements attendus en retour, de fournir des exemples. La première lettre du nom d’une propriété est généralement notée en minuscule. Certains prédicats sont de cardinalité 1. Ils admettent, comme dans le cas de l’ISSN une seule valeur possible. D’autres comme l’auteur peuvent être renseignés plusieurs fois.
  3. Objet : Les valeurs susceptibles d’être admises en renseignement des prédicats se trouvent aussi spécifiées dans l’ontologie. Les types de valeurs attendues sont Item (une autre entité définie par son IRI, dont la Classe peut être précisée), Texte, URL (une URL externe), Nombre, Date, Booléen. L’appartenance à un dictionnaire des valeurs possibles peut être spécifié dans l’ontologie. Plusieurs sortes de valeurs sont admises, et définies dans les règles d’usage des propriétés. Une valeur peut être un IRI de la même base, un IRI d’une autre bases sémantique, un attribut qui correspond à un libellé formulé en une langue donnée.

Pour définir ce qu’est une ontologie à l’aide d’une sorte d’équation, on a :

Ontologie (i) = Classes (ii) + propriétés (iii) + règles d’usage (iv)

  • i/ ontologie, vocabulaire, graphe de connaissance
  • ii/ Classes, Types, Catégories de choses à décrire, dont la valeur est souvent notée avec la première lettre en majuscule
  • iii/ propriétés ou métadonnées, ou éléments, ou colonnes d’un tableau, ou prédicat, ou attributs, renseignements sur des choses d’une nature donnée, noté généralement en minuscule
  • iv/ règles telles que l’organisation possiblement hiérarchique des Classes et des propriétés, valeurs attendues en renseignement des propriétés, héritage des propriétés, domaines d’application, contexte et exemples typiques d’usages. Pratiques pour le référencement ou le catalogage.

Les règles du jeu ainsi précisées, quelles stratégies poursuivre pour modéliser les données et les rendre interopérables ? Plusieurs choix sont possibles. Il est possible de se servir d’une seule ontologie pour décrire l’ensemble des choses d’une base de connaissance. Des exemples de telles pratiques sont donnés avec wikidata, CIDOC-CRM, RDA et autres ontologies dérivées de FRBR, “schema.org”. Il est alternativement possible de se servir d’une variété d’ontologies préexistantes, largement connues, et de n’en utiliser que les classes et propriétés nécessaires, comme le fait par exemple la BnF avec “data.bnf.fr”, ou bien l’ABES pour sa base “data.idref.fr”.

Alors quel modèle conceptuel utiliser ? Quelles règles de signalement et de catalogage appliquer ? Quelle(s) ontologie(s) choisir et pour faire quoi ? Ce billet liste un certain nombre d’ontologies et donne des exemples. Des vocabulaires fort simples utilisés dans le cadre de l’optimisation du référencement des sites sur le web sont tout d’abord présentés. D’autres vocabulaires utilisés essentiellement dans les domaines culturels et scientifiques sont explorés.

  • The LILOG ontology from a linguistic point of view, 1991, Ewald Lang : Lien
  • Goals, Issues and Directions in Machine Learning of Natural Language and Ontology, 1991, David Martin Ward Powers : Lien
  • The Role of Common Ontology in Achieving Sharable, Reusable Knowledge Bases, 1991, Thomas Gruber : Lien
  • Toward Principles for the Design of Ontologies Used for Knowledge Sharing, 1993, Thomas Gruber : Lien
  • Enabling Standards & Technologies – Layer Cake, 2002, Tim Berners Lee : Lien
  • The Semantic Web Revisited, 2006, Shadbolt, Nigel, Berners-Lee, Tim and Hall, Wendy : Lien
  • La généalogie des SGBD, 2009, Fabien Celaia : Lien
  • Initiation à RDF 1.1, 2014, W3C : Lien
  • Qu’est ce qu’un graphe de connaissance ? Jean Delahousse : Lien

Sommaire

  1. Des formats et des politiques documentaires
    • 1.1 Ontologies généralistes ou spécialisées
    • 1.2 Propriété non liée, propriété liée interne, ou propriété liée externe ?
    • 1.3 Politique documentaire
  2. Métiers du SEO
    • 2.1 Open Graph (og)
    • 2.2 Twitter Cards
    • 2.3 Schema.org (schema)
    • 2.4 Dublin Core (dc, dcterms)
  3. Métiers des bibliothèques
    • 3.1 The Bibliographic Ontology (BIBO)
    • 3.2 FRBR, FRBR-aligned Bibliographic Ontology (FaBiO), FRBRoo
    • 3.3 The Library Reference Model (LRM) et Ressource Description & Acces (RDA)
    • 3.4 RDA-FR et la transition bibliographique (2015 – 2022)
    • 3.5 D’autres ontologies pour les bibliothèques et l’édition
    • 3.6 Ressources bibliographiques au format web de donnée
  4. Métiers des archives, des musées, de l’archéologie
    • 4.1 CIDOC-CRM
    • 4.2 Autres outils des archives et de l’histoire
  5. Métiers de la biologie et de la santé
  6. Personnes, organisations et relations sociales
    • 6.1 Friend of a friend (FOAF)
    • 6.2 vCards (vcard)
    • 6.3 Organization (org)
    • 6.4 Relationship (rel)
    • 6.5 Event (event)
    • 6.6 Semantically-Interlinked Online Communities (sioc)
    • 6.7 A vocabulary for biographical information (bio)
  7. Encyclopédies et bases de connaissance ouvertes
  8. Étude de cas : la musique
  9. Quelques outils du web de données
  10. Conclusion

1. Des formats et des politiques documentaires

Divers formats permettent l’écriture d’ontologies, le stockage des données au format RDF, l’interrogation de tels réservoirs souvent appelés triplestores, ou encore la présentation des métadonnées d’une page du web aux moteurs de recherche.

Des notations distinctes, mais conceptuellement équivalentes et plus ou moins adaptées à la lecture par l’homme ou l’ordinateur permettent l’écriture d’ontologies. On peut ainsi distinguer Web Ontology Language (OWL), Notation3 (N3), Turtle. Un autre langage Simple Knowledge Organization System (SKOS) est dédié spécifiquement à la notation des thesaurus, plans de classements, listes de sujet, dictionnaires et taxonomies. OWL et SKOS s’appuient eux-mêmes sur des formalismes Resource Description Framework (RDF) et RDF Schema (RDFS) et permettent la notation des ontologies et données sémantiques.

RDF constitue une syntaxe susceptible de décrire toute sémantique compréhensible par une machine. Un Triplestore est une base de donnée orientée graphe dédiée spécifiquement au stockage et à l’interrogation de multiples triplets RDF décomposés en collections de triplets sémantiques lors de leur ingestion.

Au niveau informatique, les ontologies introduisent une structuration des données fonctionnellement équivalente à celle mise en place lors de l’élaboration de bases de données relationnelles classiques. Un modèle de données susceptible d’évoluer et d’être versionné doit être construit préalablement à l’élaboration d’une base de connaissance.

Des applications particulières rendent d’ailleurs possible le transit d’une base de donnée relationnelle à une base du web sémantique. Ainsi, D2RQ permet la conversion de données relationnelles en données sémantiques et une interrogation via un triplestore devient possible. Un autre logiciel nommé Ontop assure les mêmes fonctionnalités.

Lorsque le choix d’une base orientée graphe a été fait, des contenus structurés à l’aide d’ontologies et entrés dans le système peuvent alors être interrogés simultanément à l’aide du langage SPARQL. L’apprentissage des syntaxes de base du langage de requête SPARQL se montre préférable pour exploiter plus complètement le potentiel du web sémantique. Des interfaces javascript comme SPARNatural ou bien Yasgui (Yet Another Sparql Graphic User Interface) utilisé par Wikidata et d’autres permettent d’assister en partie l’utilisateur dans la formulation de requêtes SPARQL et dans l’affichage des résultats sous forme de tableaux, de cartes ou de graphes divers. A noter en alternative le choix possible de la base Neo4j et du langage CYPHER.

Au sein des pages HTML, les langages Microdata, RDFa et JSON-LD permettent l’exposition des métadonnées dans l’en-tête et dans le corps d’une page du web, en vue de partager des sémantiques. Des crawlers et moteurs de recherche du web peuvent parcourir ces pages et en saisir ainsi la sémantique.

  • Resource Description Framework; Model and Syntax Specification : Lien
  • D2RQ : Accessing Relational Databases as Virtual RDF Graphs : Lien
  • Ontop : traduit des requêtes SPARQL exprimées sur des graphes de connaissance en requêtes SQL exécutées sur des bases relationnelles. Il s’appuie sur le langage de mapping R2RML du W3C pour tirer partie d’ontologies légères : Lien
  • SPARNAtural : écrire des requêtes SPARQL, tout naturellement : Lien
  • Yasgui (Yet Another Sparql Graphic User Interface) : Lien

1.1 Ontologies généralistes ou de domaine ?

Les ontologies sont écrites en anglais généralement; certaines comme par exemple l’ontologie de Wikidata gèrent de remarquable manière le multilinguisme et présentent un aspect collaboratif. Des sites tels que Linked Open Vocabularies (LOV) permettent d’explorer plus de 700 ontologies publiquement accessibles, dans lesquelles il est théoriquement possible de sélectionner des classes ou des propriétés dans le but d’implémenter un modèle de donnée préexistant. Les relations entrantes et sortantes, de même que les dates de création sont visualisés à l’aide de l’interface.

Il convient de choisir des ontologies présentant de nombreux liens entrants si l’on souhaite utiliser une ontologie populaire, susceptible d’être aisément interopérable. Dans le domaine de la biologie, le portail BioPortal référence plus de 800 ontologies. Dans la pratique, la nature de l’organisme qui élabore une base de connaissance édicte bien souvent les ontologies choisies pour élaborer une base.

A gauche le graphe des ontologies qui se servent de BIBO;
à droite, celles utilisées par BIBO, une ontologie spécialisée dans la description simple des objets des bibliothèques : Lien

1.2 Politique de description des entités d’un corpus

Comment renseigner une propriété décrivant un objet d’un corpus ? Cela dépend à la fois de sa nature et du niveau de précision souhaité dans la description. Une politique de catalogage doit être élaborée, faire consensus et pouvoir évoluer car trois possibilités existent pour renseigner les propriétés et ainsi décrire un objet :

  1. Les attributs, ne pas lier, renseigner l’objet avec une chaîne de caractère. Un champs date peut par exemple être noté avec une grande expressivité de manière textuelle à l’aide de conventions : “1905” pour spécifier une année, “1905-12-09” pour plus de détails sur le mois et le jour, “1905/1912” peut exprimer une durée. Cette notation est préconisée dans la norme ISO 8601. Un tri alphabétique par valeur du champs se montre possible en aval. Le nom d’un auteur d’importance mineur pour un corpus peut être renseigné au format texte, plutôt que renseigné sous forme d’entité, car c’est plus rapide à faire. On dit parfois que la propriété est renseignée par un attribut dont l’ontologie et les règles d’usage précisent la nature.
  2. Lier de manière interne. Un item d’un corpus peut être lié à un autre item du même corpus via un IRI interne, indiquant une relation dont la nature se trouve précisée. L’année de création d’un objet par exemple peut être liée à une page dédiée afin de pouvoir lister les actions faites à un moment donné. Un article publié peut être lié à la page concernant un auteur; il peut être lié à une revue ou bien à une traduction. Autre exemple : Un colloque peut être détaillé avec des liens vers les conférences particulières données par plusieurs conférenciers avec la propriété hasPart. L’interface de consultation du corpus permet la navigation aisée entre documents liés, possiblement de classes différentes. Des relations entre entités de même nature ou de différentes natures sont ainsi établies.
  3. Lier de manière externe. Si l’on dispose dans un domaine quelconque d’un référentiel incontournable capable de fournir des IRI de qualité (Wkidata, DBPedia, “data.bnf.fr”, “data.idref.fr”, VIAF, GeoNames, etc…), il est possible d’identifier un item en le liant de manière externe à l’aide d’un référentiel. Une personne, un organisme, un document ou un lieu géographique peuvent être ainsi identifiés de manière non équivoque. Des bases de connaissance comme Wikidata ou DBPedia servent souvent de référentiels, et référencent d’autres référentiels.

1.3 Les usages

Divers ontologies sont employées dont le choix dépend des intentions.

1/ Optimisation du référencement, marketing et communication : Les ontologies reconnues de Google et autres moteurs (Facebook, Twitter) sont les suivantes : Open Graph, Twitter cards, Dublin Core et schema. Des plugins de WordPress ou Drupal en facilitent l’usage en vue de rendre plus visible un site dans les résultats de recherche. Du côté des promoteurs de ces ontologies (Facebook, Twitter, Dublin Core Metadata Initiative, Google et Microsoft), il convient d’assurer aux utilisateurs une stabilité dans la définition et l’organisation des classes et propriétés. Alors que les trois premières ontologies se montrent simples et efficaces, schema se montre plus complexe d’usage. Plusieurs centaines de classes et de propriétés sont définies.

2/ Bibliothèques, archives, musées, encyclopédies : Les bibliothèques, archives, musées et encyclopédies dont la visibilité est nationale ou internationale sont des adeptes d’ontologies dédiées à leurs métiers. Des institutions gèrent de manière interne leurs catalogues aux formats MARC (MARC21, INTERMARC, UNIMARC) pour les bibliothèques. EAD, EAC et autres servent pour les archives. Ces organismes souhaitent valoriser une partie de leurs activités, en diffusant leurs données en accès libre, à l’aide d’ontologies internationalement considérées. Il s’agit alors pour ces organismes d’effectuer de complexes opérations de changement de format et de mise à disposition des données. Du côte des encyclopédies, WikiData et DBPadia se montrent actuellement incontournables. 9200 propriétés rendent possible la description de 95 millions d’éléments sous Wikidata.

3/ Recherche : Les concepts véhiculés par le web de données sont venus renouveler les pratiques documentaires. Des ontologies sont mises au point dans le but de rendre compatible des silos de données créés par différents organismes. Un langage commun est recherché en vue de rendre possible des interrogations croisées, de faciliter l’interopérabilité et l’échange de données, dans le respect de pratiques FAIR (Findable, Accessible, Interoperable, Reusable).

4/ Services et industrie : Le web de données concerne initialement les données publiques. On peut cependant en appliquer les principes à certaines données en accès réservé, interfacées avec des données ouvertes. Ce domaine reste pour l’instant émergeant et quelques organismes actifs et événements peuvent être cités.

  • SousLeSens : Lien
  • Jean Delahousse : Lien
  • Industrial Ontologies Foundry (IOF) : Lien
  • Teklia : Lien
  • Sparna : Lien
  • Triply : Lien
  • SemApps, A toolbox for semantic web applications : Lien
  • Logilab : Lien
  • SemWeb.Pro, le congrès annuel parisien sur les technologies du web sémantique : Lien

Au final, c’est souvent des choix populaires, l’usage des collègues et pairs, voire des choix dictés au niveau national ou international qui guident les pratiques. L’ontologie d’une application se doit de rester quoiqu’il en soit, dénuée d’ambiguïté, quasiment invisible, largement partagée et évolutive.

Alignement de deux ontologies nommées o et o’, modélisant les participants à une conférence scientifique et leur éventuel rôle dans un commité de lecture (Reviewer) : Lien

2. Métiers du SEO

En ce qui concerne le Search Engine Optimization (SEO, Optimisation du référencement), les choix s’avèrent dictés par les moteurs de recherche. Ceux-ci prennent en compte un faible nombre d’ontologies, simples et récentes, qu’il peut être intéressant de connaître pour rendre visible des sites web.

2.1 Open Graph (og)

Créé originellement par Facebook, l’ontologie Open Graph a été adoptée par plusieurs plateformes de réseaux sociaux parmi lesquels Pinterest, LinkedIn, Twitter. Son usage en fait l’un des outils du SEO populaire, car pris en compte par les robots d’indexation de Facebook (2004) et depuis 2010 de Google. Les métadonnées og sont spécifiées dans la balise <meta property> du code HTML de l’en-tête. La valeur d’og:type précise la classe de l’objet à décrire.

7 classes sont possibles en valeur d’og:type. Il s’agit de “article, book, image, music, profile, video, website“. On remarque au passage que les noms de classe sont avec Open Graph notés en minuscule.

4 propriétés se montrent obligatoires à remplir pour fournir pour que la description soit considérée valide : “og:type, og:title, og:image, og:url

7 propriétés sont optionnelles : “og:audio, og:description, og:determiner, og:locale, og:locale:alternate, og:site_name, og:video

Des propriétés spécifiques viennent décrire les objets des classes “article, book, profile, music et video“. Renseignements relatifs à la bibliographie : “article:published_time, article:modified_time, article:expiration_time, article:author, article:section, article:tag, book:author, book:isbn, book:release_date, book:tag“. Métadonnées sur les personnes : “profile:first_name, profile:last_name, profile:username, profile:gender“. Une vingtaine de classes et propriétés concernent la musique. Les métadonnées descriptives d’une vidéo accessible depuis une plateforme de VOD sont données en exemple dans la documentation.

<html prefix="og: https://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="video.movie" />
<meta property="og:url" content="https://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="https://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>
  • The Open Graph protocol (og) : Lien
  • Un guide de partage pour les administrateurs de sites, facebook for developers : Lien
  • Open Graph Check : Lien

2.2 Twitter Cards

Introduite en 2012, l’ontologie cartes Twitter (Twitter Cards) constitue une autre ontologie fréquemment utilisée de nos jours dans le cadre du SEO. Les balises <meta name> localisées dans l’en-tête HTML sont renseignées ce qui permet le référencement riche d’un site via son URL sur les réseaux Twitter, TumblR et Blogger. L’affichage sur smartphone est particulièrement considéré.

Quatre formats de cartes (4 classes de pages) sont possibles, spécifiés par la valeur prise par twitter:card : 1/ La carte Résumé (summary), 2/ La carte Résumé avec grande image (summary_large_image), 3/ La carte Visionneuse de vidéo (player), 4/ La carte Application (app). Google reconnait le format depuis 2012. L’exemple doné est celui d’une page web d’un programme des Nations-Unies visant à développer l’économie des états insulaires.

<meta name="twitter:card" content="summary" />
<meta name="twitter:site" content="@flickr" />
<meta name="twitter:title" content="Small Island Developing States Photo Submission" />
<meta name="twitter:description" content="View the album on Flickr." />
<meta name="twitter:image" content="https://farm6.staticflickr.com/5510/14338202952_93595258ff_z.jpg" />
  • Twitter Cards, Arne Roomann-Kurrik, 2012 : Lien
  • Les Cartes Twitter, twitter developer : Lien, Lien
  • Plugin Cartes Twitter pour WordPress : Lien

2.3 Schema.org (schema)

Google, Bing (Microsoft), Yahoo, Yandex spécifient schema en 2011 et lancent depuis de régulières mises à jour d’une de leurs ontologies. L’objectif est pour les moteurs de renseigner des bases de connaissance à partir des pages parcourues par les robots d’indexation. Les éditeurs de sites web attendent en retour l’optimisation de leur référencement, la mise en valeur de leurs contenus sur les moteurs. La version 7.0 de schema sort le 10 mars 2020. Schema sert d’ontologie au Knowledge Graph de Google accessible via son API uniquement.

La hiérarchie des classes de Schema s’est étendue au fil des versions. Les classes spécifiques héritent des propriétés des classes générales proches de la racine. Au-delà des préoccupations de marketing, l’ontologie opensource disponible sous licence Creative Commons peut décrire de manière aussi précise que souhaité une variété d’objets. Schema s’avère assez complet et possiblement complexe d’usage. D’autres ontologies comme “The Product Types Ontology” ou “GoodRelations” étendent les champs d’applications standards. Un autre article de ce blog est spécifiquement consacré à cette importante ontologie prise en considération par Wikidata.

2.4 Dublin Core (dc, dcterms)

Crée en 1995 à Dublin (Ohio) par le DCMI (Dublin Core Metadata Initiative) et antérieure à la notion de web de données, c’est le vocabulaire le plus ancien et le plus utilisé en première approche pour décrire tout document textuel du web. Dublin Core se trouve fréquemment associé aux ontologies FOAF et BIBO pour décrire de manière simple des pages du web décrivant des entités du type document, personne ou organisation.

a/ Classes des objets

Les classes sont spécifiées dans la propriété Dublin Core type. Les valeurs recommandées pour type sont listées dans le “DCMI Type Vocabulary” et peuvent être étendues. Un ou plusieurs types peuvent être spécifiés simultanément, par exemple Text (contrôlé dans DCMI Type Vocabulary) et aussi Article (non contrôlé), exemples. Les 12 valeurs standards du dictionnaire DCMI Type :

Collection, Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text

b/ Propriétés simples et affinées

15 propriétés simples sont définies auxquelles sont ajoutées ici entre parenthèses des propriétés affinées – sortes de sous-propriété qui apportent une précision supplémentaire.

  1. contributor
  2. coverage > (spatial – pays en ISO 3166-1, temporal)
  3. creator
  4. date > (available, created, dateAccepted, dateCopyrighted, dateSubmitted, issued, modified, valid)
  5. description > (abstract, tableOfContents)
  6. format > (extent, medium)
  7. identifier > (bibliographicCitation)
  8. language (ISO 639-2, 639-3, RFC1766)
  9. publisher
  10. relation > (conformsTo, hasFormat / isFormatOf, hasPart / isPartOf, hasVersion / isVersionOf, isReferencedBy / references, isReplacedBy / replaces, isRequiredBy / requires)
  11. rights (accessRights, license)
  12. source
  13. subject
  14. title > (alternative)
  15. type

Les valeurs des champs Dublin Core peuvent également être affichées dans l’en-tête d’une page HTML.

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN"
   "http://www.w3.org/TR/html4/strict.dtd">
<html>
  <head profile="http://dublincore.org/specifications/dublin-core/dc-html/2008-08-04/">
    <title>Services to Government</title>
    <link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" >
    <link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" >
    <meta name="DC.title" content="Services to Government" >
    <link rel="DCTERMS.subject" href="http://example.org/topics/archives" title="Archives" >
  </head>
  <body>
  </body>
</html>
  • DCMI Metadata Terms, 2020 : Lien
  • Dublin Core™ User Guide > Publishing Metadata : Lien
  • Le plugin OpenLink Structured Data Sniffer disponible sous Chrome et Firefox permet d’afficher les métadonnées insérées dans une page web.
  • Le site web Structured Data Linter aide les webmestres et les développeurs web à vérifier la conformité des données structurées de leurs pages HTML. Publié par structured-data.org, la doublure (linter) parse les formats microdata, JSON-LD et RDFa. Description d’un personne imaginaire rendue par Linter : Lien

3. Métiers des bibliothèques

Les bibliothèques ont historiquement initié des réflexions sur l’organisation des connaissances et leur diffusion raisonnée en direction du grand public. Plusieurs virages furent successivement pris parmi lesquels l’informatisation des catalogues et des prêts (années 70), le modèle FRBR adopté par l’IFLA (1997), l’arrivée des documents numériques (années 2000), l’introduction du web sémantique (2006), le modèle LRM (2017). Les bibliothèques se distinguent expressément des musées et des archives par leur mode de rangement et par le fait qu’elles exposent des documents produits en série, qu’il sera généralement possible de racheter en cas de perte ou de destruction.

Comment décrire un livre, un chapitre de livre, une revue ou un article de revue ? Comment ranger dans des rayons livres, revues, disques et DVD ? Comment exposer sur le web une bibliothèque numérique ? Et finalement comment rendre accessible via SPARQL des références bibliographiques éventuellement numérisées ? Quelques unes des ontologies dédiées à la description des ouvages et connaissances des bibliothèques sont ici évoquées.

3.1 The Bibliographic Ontology (BIBO)

Créée en 2009, dernière version 2013, BIBO est une ontologie prévue pour un usage conjoint avec Friends Of A Friend (FOAF) – pour décrire les autorités (personnes, groupes, organisations) – et Dublin Core (dcterms) vu précédemment. Ce vocabulaire décrit essentiellement les agents, les documents et les événements qui conduisent à la production d’une œuvre originale publiée. La hiérarchie des classes est ici visualisée sous forme d’une liste ordonnée. Les propriétés des classes sont ici notées entre parenthèses et le signe supérieur “>” indique la hiérarchie.

Thing (abstract, identifier > (asin, coden, doi, eanucc13, eissn, gtin14, handle, isbn, issn, Iccn, oclcnum, pmid, sici, upc, uri))

BIBO visualisé avec Protégé : Lien
  • The Bibliographic Ontology : Lien
  • BIBO sur LOV : Lien

3.2 FRBR, FRBR-aligned Bibliographic Ontology (FaBiO), FRBRoo, et autres ontologies apparentées

Le modèle conceptuel de données FRBR (Functionnal Requirements for Bibliographic Records) est publié par l’IFLA (International Federation of Library Association) en 1997. Il modélise les théories et pratiques du catalogage en vigueur dans les bibliothèques universitaires, régionales et nationales. La description du processus créatif complet depuis la création d’une œuvre par son auteur, en passant par une édition, jusqu’à l’obtention d’un exemplaire par une bibliothèque est prise en considération. Des livres, revues, journaux, films et documentaires, pièces musicales, blogs et pages du web, ensembles de données, codes et logiciels, vocabulaires et dictionnaires, décisions légales et arrêts rendus, archives gouvernementales, rapports techniques et commerciaux voire plus se trouvent possiblement décrits par le modèle FRBR.

Toute œuvre originale publiée peut être décrite par une hiérarchie de 4 concepts décrits successivement. Le concept de Work traduit en français par “Œuvre” se trouve à la racine. Bien qu’abstrait et non matériel pour la bibliothèque, Work rend possible la création d’un lien entre une œuvre originale nommée et plusieurs expressions dérivées possibles. Un exemple d’œuvre fréquemment donné est “Notre Dame de Paris” de Victor Hugo. Expression correspond à la réalisation d’une œuvre et concerne essenttiellement la ou les éditions de la même œuvre quelque soit sa nature. “Notre Dame de Paris” peut par exemple être édité sous forme de livre ou adapté sous forme de comédie musicale. Les aspects intellectuels et juridiques sont pris en considération, nom des contributeurs à l’édition et rôles joués par ceux-ci. Les aspects physiques se trouvent décrits dans l’entité Manifestation. Une manifestation unique réunit tous les objets physiques qui présentent les mêmes caractéristiques physiques. Une matérialisation distincte (analogique, numérique) correspond à une autre manifestation. Diverses manifestations de “Notre Dame de Paris” de Victor Hugo seront des éditions diverses ou un enregistrement du spectacle sur DVD. Et enfin Item rassemble les propriétés en relation avec un exemplaire particulier localisé dans la bibliothèque. L’identifiant local ou le lieu de rangement habituel sont renseignés à ce niveau. Des variations entre items peuvent correspondre à un état physique particulier, à l’ajout d’une dédicace par exemple. Une bibliothèque peut mettre à disposition plusieurs items d’une même manifestation. En bibliothèque, le catalogage est réalisé à partir de l’Item.

L’action de plusieurs agents individuels ou collectifs sous-tend l’ensemble du processus. L’acronyme WEMI, ou bien OEMI est généralement utilisé pour mémoriser aisément la hiérarchie des concepts.

Relations entre classes avec FaBiO et étapes du processus éditorial
Catalogue, chercher le littéraire, du papier au numérique, F. Glorieux, 2017 : Lien

Une première édition de FRBR est réalisée par Ian Davis, Richard Newman et Bruce D’Arcus en 2005 et nommée Expression of Core FRBR Concepts in RDF. Treize classes et 48 propriétés s’y trouvent définis. FaBiO (the FRBR-aligned Bibliographic Ontology) est une autre ontologie dérivée du modèle FRBR élaborée à partir de 2012 et jusqu’en 2019. Elle fait partie de la suite SPAR (Semantic Publishing and Referencing Ontologies), un groupe d’ontologies dédiées à la description bibliographique. FaBiO est prévue pour fonctionner en complément de Core FRBR, de PrisM, de dcterms et foaf.

Les classes sont notées en minuscule suivies de C en exposant. L’exposant est ici omis et le minuscule conservé. Certaines classes admettent plusieurs classes parentes et sont marquées d’un signe + car présentes en double. La hiérachie des classes Fabio est la suivante :

En ce qui concerne les propriétés, FaBIO distingue celles associes aux objets (physiques ?), et celles associées aux données (métadonnées ?, attributs ?).

Propriétés associées aux objets : has creator, has discipline / is discipline of, has embodiment / is embodiment of, has exemplar / is exemplar of, has format, has language, has license, has manifestation, has part / is part of, has place of publication, has portrayal, has primary subject term, has publisher, has realization / is realization of, has representation / is representation of, has rights, has subject term, is in scheme, is manifestation of, is portrayal of, is scheme of, is stored on / stores

Propriétés associées aux données : abstract, alternate title, date last updated, has acceptance date, has access date, has ArXiv identifier, has character count, has CODEN, has copyright date, has copyright year, has correction date, has creation date, has date, has date collected, has date received, has deadline, has decision date, has deposit date, has DOI, has edition, has eISSN, has electronic article identifier, has embargo date, has embargo period, has ending page, has handle, has identifier, has ISBN, has ISSN, has ISSN-L, has issue date, has issue identifier, has keyword, has modification date, has National Library of Medicine journal identifier, has National Library of Medicine journal title abbreviation, has number, has page count, has page range, has patent number, has PII, has preprint dissemination date, has publication date, has publication year, has PubMed Central identifier, has PubMed identifier, has request date, has retraction date, has season, has short title, has SICI, has standard number, has starting page, has submission date, has subtitle, has title, has translated subtitle, has translated title, has URL, has validity date, has version identifier, has volume count, has volume identifier, has word count, section, uses calendar

Les supports possibles, annotations et dictionnaires de référence ne sont pas oubliés. Des exemples complètent les spécifications SPAR. La relative complexité de FaBiO fait que son usage est plutôt réservé à des équipes professionnelles dans le domaine du catalogage en bibliothèque. Dérivée des modèles conceptuels FRBR et CIDOC-CRM, l’ontologie FRBRoo voit le jour en 2008. Une adaptation est mise au point et maintenue par l’Université d’Erlangen. Quelques liens :

  • FRBR : Travaux de l’IFLA, 1992, 1998, 2009 : Lien
  • FRBR, Expression of Core FRBR Concepts in RDF, 2005 : Lien
  • FaBiO, 2012, résumé et exemples : Lien
  • FaBiO, publié sur github Lien1, Lien2, bibo.owl
  • FaBiO, the FRBR-aligned Bibliographic Ontology, 2019 : Lien
  • FaBiO and CiTO: ontologies for describing bibliographic resources and citations, Journal of Web Semantics, 17: 33-43, Peroni, S., Shotton, D. (2012) : Lien
  • Expression of Core FRBR Concepts in RDF, 2005 : Lien
  • FRBRoo : intégration de FRBR dans le CIDOC-CRM, 2008. Les classes sont préfixées E et F (F1 Work), les propriétés P et R (R3 is realised in) : Documentation Erlangen, Lien
  • SPAR Ontologies : Lien
  • Exemples d’usage des ontologies SPAR : Lien

3.3 The Library Reference Model (LRM), Ressource Description & Acces (RDA) (2009-2017)

Un modèle entité association dédié à la description des notices d’autorités Functional Requirements for Authority Data (FRAD) est élaboré par l’IFLA en 2009. Les données d’autorité représentent les points d’accès contrôlés dont se servent les institutions pour colocaliser les œuvres d’une personne, d’une famille ou d’une collectivité particulières ou les différentes éditions d’un titre. D’autres travaux de modélisation aboutissent en 2010 avec la publication de Functional Requirements for Subject Authority Data (FRSAD). Les notices d’autorité sujet – mots-clés, lieux et époques nommées. FRBR, FRAD et FRSAD se trouvent intégrés dans Library Reference Model (LRM) publié en 2017. Les entités Agent, Time-span, Place, Nomen et Res se trouvent introduits et viennent compléter WEMI.

En parallèle des travaux conceptuels de l’IFLA, le RDA Steering Comitee élabore de 2010 à 2013 l’ontologie Ressource Description & Acces (RDA). Le FRBR, puis le LRM “trouvent une expression” dans RDA. Une ontologie accompagnée d’un guide de catalogage en anglais deviennent accessibles. Le CIDOC-CRM s’empare également du LRM en 2020 pour produire LRMoo, une ontologie dérivée également de FRBRoo.

De nombreuses bibliothèques nationales dont la Bibliothèque du Congrès puis la British Library, la Bibliothèque et Archives du Canada, la Bibliothèque nationale australienne, la Bibliothèque nationale allemande, la Bibliothèque nationale d’Espagne, la Bibliothèque nationale de Lettonie, la Bibliothèque nationale des Pays-Bas adoptent progressivement RDA.

  • Fonctionnalités requises des données d’autorité (FRAD) : Lien
  • Functional Requirements for Subject Authority Data (FRSAD) : Lien
  • Modèle de référence IFLA pour les bibliothèques : Lien
  • LRM (Library Reference Model), IFLA, 2017 : Lien
  • Ressources : description et accès : Lien
  • RDA Registry : Le Registre RDA contient des ontologies qui représentent les entités RDA, les propriétés et vocabulaires contrôlés spécifiques des propriétés exprimés en Resource Description Framework (RDF) : Lien
  • Ressources : description et accès : Lien
  • LRMoo (formerly FRBRoo) object-oriented definition and mapping from IFLA LRM : Lien

3.4 La transition bibliographique RDA-FR (2015-2022)

La création de data.bnf.fr en 2011 constitue une étape majeure en direction du web de données, de l’ouverture au public de données bibliographiques enfouies dans précédemment plusieurs systèmes difficilement accessibles. Les choix faits par la BnF en matière d’ontologies consistent à adopter simultanément certaines propriétés choisies parmi plusieurs vocabulaires pour décrire les données dans le cadre du modèle WEMI. Certaines propriétés sont définies dans RDFS, SKOS, DCTERMS, FOAF, rdvocab, rdarelationships, RDAgroup2elements. L’ontologie spécifique onto-bnf définit un certain nombre de propriétés autres. Des propriétés autres sont embarquées dans le code HTML des pages pour optimiser le référencement. Les vocabulaires employés sont alors DC et Opengraph Protocol, comme le montre le code source de la notice Victor Hugo.

La lecture de RDA par les spécialistes des métadonnées de l’Agence bibliographique de l’enseignement supérieur (Abes) et de la Bibliothèque nationale de France (BnF) se poursuit de 2010 à 2014. L’Abes et la BnF publient un communiqué commun en 2014 officialisant la position française : se rapprocher le plus possible du code RDA tout en conservant l’analyse catalographique à la française. Le principe justifiant cette position est celui de la non régression. Il y a légitime nécessité de ne pas perdre les informations contenues dans les notices d’ancienne génération accessible au format INTERMARC. Une évolution vers le format de catalogage INTERMARC ng est envisagée dans le but d’intégrer de manière raisonnée les apports successifs de FRBR et LRM.

Le projet Transition bibliographique est lancé en 2015. Il a pour objectif de faire évoluer les règles de catalogage vers le modèle national RDA-FR. Trois groupes de travail sont constitués. Le Groupe de normalisation est chargé de rédiger le futur code de catalogage. Il prépare également des demandes d’évolution de RDA dans le cadre du groupe RDA EURIG. Le Groupe Formation élabore des supports pédagogiques et monte des formations à destination des bibliothécaires. Le Groupe Systèmes & Données travaille sur les aspects plus spécifiquement informatiques du projet.

  • Transition bibliographique, des catalogues vers le web de données : Lien, (Normalisation, Formation, Systèmes & Données)
  • European RDA Interest Group : Lien
  • À défaut d’enterrement : les défis et les promesses de l’INTERMARC nouvelle génération. Peyrard, 2018 : Lien
  • Appliquer FRBRoo à la Bibliothèque nationale de France ? M. Roche, 2019 : Lien
  • Seconde expérimentation Sudoc FRBR / LRM (octobre 2019 – …), ABES : Lien
  • Qu’est-ce que RDA-FR ? Transition bibliographique, 2021 : Lien

3.5 D’autres ontologies pour les bibliothèques, l’édition et la recherche

  • BIBFRAME (bf), 2014 : L’ontologie de la Bibliothèque du Congrès, version au format web de données et FRBR de MARC21 : Lien
  • GND Ontology (Deutsche National Biblothek) : Une ontologie utilisée de manière internationale pour décrire les autorités personne, organisme, sujet et titre : Lien
  • CiTO, the Citation Typing Ontology, un vocabulaire SPAR dédié spécifiquement aux citations bibliographiques et à l’étude de leur sémantique : Lien
  • PRISM, The Publishing Requirements for Industry Standard, jeu de métadonnées défini à plat en XML et fréquemment utilisé (data.BnF) en complément de Dublin Core : Lien
  • MADS (Metadata Authority Description Schema in RDF) : une ontologie produite par la Bibliothèque du Congrès pour décrire simplement des autorités (auteurs de textes et affiliations, personnes et organismes) : Lien
  • Nature Publishing Group ontology (npg) 2015, l’ontologie de SciGraph, le portail de données de Springer Nature : Lien1, Lien2
  • ModSci, Modern Science Ontology 2019, powers two projects for semantically representing scholarly information: Open Research Knowledge Graph 1 and OpenResearch.org
  • COAR, Controlled Vocabularies for Repositories, 2016 – 2023 : Lien

3.6 Ressources bibliographiques au format web de donnée

Un certain nombre de ressource se trouve depuis les années 2010 environ accessibles au format “web de données” et possible à interroger à l’aide de SPARQL.

  • ABES (Agence Bibliographique de l’Enseignement Supérieur), Data IdRef, Autorités et littérature académique (personnes, organismes, articles, livres, thèses) : Lien, sparql end-point : Lien, https://data.idref.fr/endpoint.html
  • BnF (littérature) : data.bnf.fr, Lien SPARQL end-point, https://data.bnf.fr/opendata
  • Hal (littérature scientifique française), Sparql end-point : Lien
  • Persée (littérature académique en sciences humaines), sparql end-point : Lien, Sparklis, interrogation d’un Sparql endpoint en langage naturel : Lien
  • Isidore (contenus de corpus de sciences humaines), sparql end-point : Lien
  • Ontologie ISTEX, data.istex.fr (littérature scientifique)
  • Biblissima : Lien, (littérature médiévale)
  • VIAF (personnes et organismes, autorités) : Lien
  • searchFast (notices bibliographiques, autorités) : Lien
  • Isidore, Huma-Num : Lien

4. Métiers des archives, des musées, de l’archéologie

Les métiers des archives, musées, de la recherche en archéologie et en histoire se distinguent généralement nettement de ceux des bibliothèques. Les artéfacts et œuvres préservées à référencer se montrent généralement uniques. Les archives sont le fruit des activités de personnes, de familles ou d’organismes. Elles s’accumulent en quelque sorte naturellement au cours de l’existence et des tris sont faits entre les archives dont la préservation est souhaitée sur le court, le moyen ou le long terme. Le support naturel de stockage est le carton rangé dans une étagère, le document rangé dans la hiérarchie d’un cloud. Les normes de l’archivage sont essentiellement EAD (1993) et EAC-CPF (2004) publiés sous forme de DTD et au format XML. La publication de CIDOC CRM en 1999 constitue une étape qui a grandement influencé l’évolution du modèle FRBR, mais CIDOC-CRM continue sa vie propre car le modèle se montre particulièrement adapté à la notation des questions de datation, élément partiellement inconnu dans le domaine.

4.1 CIDOC-CRM

Cette ontologie assez complexe se montre populaire pour décrire les objets des musées et de l’archéologie essentiellement. Le Modèle Conceptuel de Référence du CIDOC (CIDOC CRM) émerge en 1994 des travaux du Groupe de Documentation sur les Standards CIDOC du Comité International de la Documentation de l’International Council of Museums. Le groupe s’oriente vers les méthodes orientées objet à partir de 1996. La première version stable du CIDOC Conceptual Reference Model (CRM) est proposée en 1999. Un processus de standardisation débute en 2000 et la publication devient norme ISO 21127 en 2006. Le vocabulaire est décliné par l’Université d’Erlangen en une version OWL dénommée Erlangen CRM. Cette ontologie de haut niveau entend être capable de décrire tout objet culturel.

La version courante Erlangen CRM est ici évoquée. Les classes sont au nombre de 85 et il y a 283 propriétés. La syntaxe mèle identifiant et texte en anglais. Les propriétés et exemples de valeurs de chaque classe sont décrites dans la documentation. Les propriétés sont de la forme P suivi d’un chiffre comme par exemple P72 has language (is language of) ou bien P102 has title (is title of). On a sous E1 CRM Entity la hiérarchie des classes :

Plusieurs éléments remarquables apparaissent à la lecture du modèle conceptuel. Quelques classes comme E21 Person, E34 Inscription ou E35 Title de même que des portions de hiérarchies comme E73 Information Object et E90 Symbolic Object admettent plusieurs classes parentes et se retrouvent ici dupliquées et marquées du signe “+” dans la hiérarchie.

La classe Thing (E70 Thing) ne se trouve pas à la racine de l’arborescence mais à l’intérieur de celle-ci. Des notions comme les événements (E5 Event) ou les acteurs (E39 Actor) sont décrites indépendamment de Thing. Les organisations sont vues comme des sortes de groupes (E40 Legal Body). La classe (E55 Type) de E70 Thing correspond à la possibilité d’étendre CIDOC CRM à des ontologies et thesauri spécifiques de domaines. CIDOC CRM peut servir de vocabulaire d’alignement comme le propose par exemple l’interface OntoME du LARHA. Des alignements et collaborations concernent plusieurs domaines parmi lesquels FRBRoo, PRESSoo ou CRMsoc pour la modélisation des phénomènes sociaux peuvent être cités. La complexité de cette ontologie fait que son usage reste réservé aux personnes ayant suivi une formation. Documentation, sites et outils :

  • CIDOC-CRM : Le modèle conceptuel de référence pour les objets patrimoniaux des musées et de l’archéologie : Lien;
  • CIDOC-CRM : Modèles compatibles et collaborations : Lien
  • CIDOC-CRM : FRBRoo / LRMoo : Lien
  • Hiérarchie des classes CIDOC CRM par Sparna Labs : Lien
  • Tutoriel CIDOC-CRM Sparql sur les données du British Museum à collection.britishmuseum.org, Thomas Francart, 2018 : Lien
  • Erlangen CRM : The Erlangen CRM / OWL is an interpretation of the CIDOC CRM in a logical framework attempting to be as close as possible to the text of the specification : Lien
  • OntoME (Ontology Management Environment, Larhra). Un environnement pour aligner les ontologies des domaines de l’histoire, la géographie, les bibliothèques, les archives et autres données culturelles, notamment sur CIDOC CRM : Lien

L’INHA (Institut National d’Histoire de l’Art) a développé au cours de ces dernières années de nombreuses bases de données initiallement disjointes. Des efforts sont alors entrepris pour rendre interopérables les métadonnées et les images en haute résolution acquises au cours de l’élaboration des diverse bases. La plateforme AGORHA est ainsi montée, dont une version renouvelée voit le jour en 2022. La possibilité d’exporter les métadonnées des items et listes d’items en CIDOC-CRM est intégrée.

  • Les bases de données de l’INHA, une longue histoire, Pierre-Yves Laborde, 2021 : Lien
  • La nouvelle version d’AGORHA : détails de choix d’usage et technologiques, Antoine Courtin, 2021 : Lien

4.2 Autres ontologies et outils des archives et de l’histoire

  • Records in Context (RIC) (archives, Conseil International des Archives)
    • Projet de nouvelle norme de description archivistique se basant sur un modèle conceptuel de celle-ci, publiée et mise en consultation en 2016 par le Conseil international des archives : Lien, Matterhorn tools : Lien, à l’ICA, version 0.1 (archives) : Lien, Vidéo, 18:23 : Lien
    • RiC-CM, RiC-O : les Archives se dotent de leur modèle conceptuel (Records in Contexts), Thomas Francart, 2020 : Lien
    • Records in Contexts Ontology (archives), Pastor-Sánchez, 2017 : Lien
  • PACTOLS, vocabulaires de l’archéologie : Lien
  • OpenArchaeo : Lien
  • Symogih.org (Larhra, histoire), ontologie alignée sur Cidoc CRM : Connaissance > (Biographie, Représentation spatiale de l’information, Types d’information génériques, Vie des institutions, Vie économique, Vie intellectuelle, Vie religieuse, Vie sociale) : Lien
  • PREMIS : L’ontologie de la bibliothèque du Congrès dédiée à la préservation des objets numériques : Lien
  • PeriodO : Lien (périodes historiques)
  • Art & Architecture Thesaurus, Getty as LOD (musées) : Lien, Lien
  • Vocabulaires du Getty Research Institute (utilisés par la Bibliothèque du Congrès) : Lien

5. Métiers de la biologie et de la santé

La biologie de même que les métiers de la médecine ont connu une adaptation des anciens thésaurus et outils documentaires aux nouveaux formats. Ainsi, le vocabulaire Medical Subject Headings (MESH) est devenu accessible en RDF et interogeable via SPARQL. De nombreuses autres initiatives concernent également la biologie comme Open Biomedical Ontologies (OBO).

Créée en 2009, l’Agence du numérique en santé accompagne la transformation numérique du système de santé français aux côtés des acteurs concernés des secteurs sanitaire, social et médico-social, privés comme publics, professionnels ou usagers. Elle ouvre en 2020 son Serveur Multi-Terminologie (SMT) destiné aux organisations publiques ou privées consommatrices des terminologies dans les secteurs de la santé, du médico-social et du social. Le serveur rend interrogeable simultanément via un moteur à facettes et via SPARQL une quarantaine de terminologies satisfaisant à des critères d’interopérabilité. Sont ainsi rendus accessibles et possibles à télécharger des dictionnaires (listes à plat), des taxonomies (listes hiérarchisées de termes), des thésaurus, terminologies et ontologies de diverses spécialités biomédicales.

Phast poursuit son action de diffusion de SNOMED CT en France, 2017 : Lien
  • Medical Subject Headings (MeSH) RDF is a linked data representation of the MeSH biomedical vocabulary produced by the National Library of Medicine. MeSH RDF includes a downloadable file in RDF N-Triples format, a SPARQL query editor, a SPARQL endpoint (API), and a RESTful interface for retrieving MeSH data : Lien
  • BioPortal : the world’s most comprehensive repository of biomedical ontologies : Lien
  • Open Biomedical Ontologies : Lien
  • The OBO Foundry, répertoire des ontologies de différents domaines de la biologie et de la médecine : Lien
  • SNOMED Clinical Terms, ensemble organisé de plus de 300 000 concepts à disposition des acteurs de santé : Lien
  • NCI Thesaurus couvre le domaine du cancer : Lien
  • Unified Medical Language System, NLM : Lien1, Lien2
  • Disease Ontology : Lien
  • GENEONTOLOGY; le consortium GO un modèle informatique des systèmes biologiques du niveau moléculaire au niveau organisme entier de plusieurs espèces : Lien
  • The CWRC Illness and Injury Ontology : Lien
  • BIO2RDF, Linked Data for the Life Sciences : Lien1, Lien2
  • Healthcare metadata – DICOM ontology, (Digital Imaging and Communications in Medicine) : Lien
  • Serveur Multi-Terminologies, Agence du numérique en santé : Lien

6. Personnes, organisations et relations sociales

6.1 Friend of a friend (FOAF)

Créée au milieu des années 2000, certaines propriétés de FOAF se montrent fréquemment utilisées de nos jours, pour décrire les individus et les organisations. La hiérarchie des classes est listée. Les propriétés associées suivent entre parenthèses. Présente au niveau de “foaf:Thing”, la propriété “foaf:name” s’applique à toute la hiérarchie des classes :

6.2 vCards (vcard)

Format de fichier pour l’échange de cartes de visites électroniques créé en 1998 par l’IETF pour l’échange d’informations personnelles et professionnelles par eMail, MMS, messagerie instantanés ou QR code. Défini comme une ontologie par le W3C en 2014 : Lien

Hiérarchie des classes

Liste des propriétés

address, agent, email, geo, has additional name, has address, has calendar busy, has calendar link, has calendar request, has category, has country name, has email, has family name, has formatted name, has gender, has geo, has given name, has honorific prefix, has honorific suffix, has key, has language, has locality, has logo, has member, has messaging, has name, has nickname, has note, has organization name, has organization unit name, has photo, has postal code, has region, has related, has role, has sound, has source, has street address, has telephone, has title, has uid, has url, has value, key, logo, name, organization, photo, sound, telephone, url

6.3 Organization (org)

Fonctionnement d’une organisation, gouvernementale ou non, dont des agents sont répartis sur plusieurs sites, ont des postes et jouent des rôles. Dépend de l’ontologie PROV-O, de FOAF : Lien

Classes : prov:Activity > (ChangeEvent), Membership, Organization > (FormalOrganization, OrganizationalCollaboration, OrganizationalUnit), Post, skos:Concept > (Role), Site

Propriétés : basedAt, changedBy, classification, hasMember, hasMembership, hasPost, hasPrimarySite, hasRegisteredSite, hasSite, hasSubOrganization, hasUnit, headOf, heldBy, holds, identifier, linkedTo, location, memberDuring, memberOf, member, organization, originalOrganization, postIn, purpose, remuneration, reportsTo, resultedFrom, resultingOrganization, role, roleProperty, siteAddress, siteOf, subOrganizationOf, transitiveSubOrganizationOf, unitOf

6.4 Relationship (rel), SORON (sor)

Œuvre de Ian Davis et Eric Vitiello Jr de 2003 à 2010, un vocabulaire pour décrire les relations sociales, familiales, professionnelles et de voisinage. A utiliser conjointement avec FOAF : Lien

Créée en 2020, SORON (Social Relationships ONtology) constitue une autre ontologie dédiée à la modélisation des relations sociales et qui complète FOAF et Relationship : Lien

6.5 Event (event)

Créé en 2007 par le Centre for Digital Music de Londres, cette ontologie rend possible la description d’événements culturels. Friends of a friend permet la dscription des agents. Les vocabulaires time et geo décrivent les informations spatio-temporelles, date, durée et lieux de l’événement :

Event (agent, factor/isFactorOf, literal_factor, place, producedIn, sub_event, time), Factor, Product

  • The Event Ontology, 2007 : Lien
  • WGS84 Geo Positioning (geo), 2003 : Lien1, Lien2
  • Time Ontology (time), 2006-2017 : Lien

6.6 Semantically-Interlinked Online Communities (sioc)

Description de communautés et réseaux sociaaux, listes de discussion et sites webs : Community, Container, Forum, Item, Post, Role, Site, Space, Thread, UserAccount, Usergroup : Lien

6.7 A vocabulary for biographical information (bio)

Le vocabulaire BIO rend possible en complément de Dublin Core, Event et Friends of a Friend la description d’évènements biographiques centrés sur les individus. Les classes Person et Event sont définies respectivement par les ontologies Friends Of A Friend et Event. La classe Agent est spécifiée par BIO et non Friends Of A Friend.

L’évènement Employment par exemple positionne la personne au centre de la description plutôt que l’organisme employeur. Birth par exemple admettent date et place comme propriété. La biographie du roi Henry VIII est donnée en exemple en fin de description : Lien

Classes associées à Person : Biography, Birth Event, Child, Death Event, Father, Key Words, Life Event, Mother, One-line bio

Exemple d’usage en turtle, Pressac : Lien

@prefix person: <http://prelib.huma-num.fr/person/> .
@prefix event: <http://prelib.huma-num.fr/event/> .
@prefix place: <http://prelib.huma-num.fr/place/> .
@prefix cidoc: <http://www.cidoc-crm.org/cidoc-crm/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix tgn: <http://vocab.getty.edu/tgn/> .

person:80 a cidoc:Person, foaf:Person ;
dc:title "Théodore-Claude-Henri Hersart de la Villemarqué (1815-1895)"@fr ;
foaf:name "Théodore-Claude-Henri Hersart de la Villemarqué"@fr ;
foaf:givenName "Théodore Claude Henri"@fr ;
foaf:familyName "Hersart de la Villemarqué"@fr ;
foaf:nickname "Barz Nizon"@br, "Kervarker"@br;
foaf:gender "male"@en, "homme"@fr ;
bio:birth event:1 ;
bio:event event:3 .

event:1 a bio:Birth ;
rdfs:label "Naissance de Théodore-Claude-Henri Hersart de la Villemarqué le 7 juillet 1815 à Quimperlé"@fr ;
bio:date "1815-07-07"^^xsd:date ;
bio:place tgn:7009459 ; # Voir http://vocab.getty.edu/tgn/7009459
bio:parent person:1115 , person:1114 ;
bio:principal person:1 .

event:3 a bio:Enrolment;
rdfs:label "Entrée au collège des Jésuites de Keranna à Quimper"@fr ;
bio:organization organization:1 ;
bio:date "1825"^^xsd:Year ;
bio:place tgn:7008262 ;
bio:principal person:1 .

7. Encyclopédies et bases de connaissances ouvertes

7.1 The DBpedia Ontology (dbpedia-owl)

Créée à partir de 2007 par l’Université de Berlin par extraction automatique des données factuelles dérivées des infoboxes de Wikipédia, l’ontologie couvre actuellement 685 classes décrites par 2795 propriétés différentes. Elle se distingue par son aspect multilingue (jusqu’à 16 langues selon les entrées) et son ontologie. DBO comprend 57 classes de premier niveau. Quelques unes des classes de premier et second niveau sont ici listées. DBpedia renseigne la propriété de owl equivalentClass. La classe “dbo:Person” se montre alignée avec “foaf:Person”.

Des versions anglaise, allemandes et françaises de DBPedia sont actuellement maintenues :

  • Navigation dans la hiérarchie des classes : Lien
  • Sparql endpoint DbPedia : Lien
  • DbPedia en français à partir de 2012 avec de nombreux outils et tutoriels : Lien
  • Information Wikipédia sur DBpedia : Lien
  • Henri Poincaré via DBpedia France : Lien

7.2 Wikidata

Développé à partir de 2012 par Wikimedia Allemagne, Wikidata désigne à la fois une ontologie et une base de connaissance multilingue. La base de connaissance participative peut être vues et éditées en anglais par tout bénévole. Les données sont disponibles sous une licence CC0 proche du domaine public rendant possible un usage par tous, y compris commercial.

Chaque élément de la base est identifié de manière univoque par un numéro débutant par la lettre Q. Ainsi Q1 identifie en français univers, Q2 Terre, Q3 vie, Q4 mort, Q5 être humain, Q8 bonheur, etc. Les identifiants des propriétés débutent par la lettre P. La propriété P31instance of” ou “nature de l’élément“, détermine la classe de l’objet. P279subclass of” identife la hiérarchie des classes. Si nous nous intéressons à Q5 “être humain” par exemple, celui-ci “est de la classe” P31 Homo sapiens Q15978631 et admet comme classe supérieure personne, personne physique et omnivore. D’autres propriétés fréquemment renseignées et pertinentes au niveau structure des données sont P361part of” (humanité), P18image“, P2579studied by” (anthropologie, écologie humaine).

La propriété P1552 has quality nomme les qualités attendues, possibles à qualifier et pour certaines quantifier (gravité pour univers; masse, champ magnétique et habitabilité pour la Terre; nom, âge, genre, conscience de soi, connaissance de soi, personnalité pour Q5 être humain). Des liens vers d’autres bases de connaissances et encyclopédies concluent la description des items et propriétés.

L’ontologie de Wikidata présente une structure réticulée. Elle peut être interrogée et visualisée sous forme de graphes à l’aide d’outils particuliers comme Wikidata Graph Builder. La classe racine est nommée something. Des graphes donnés à titre d’exemple et possibles à manipuler à l’aide de l’outil interacif “AngryLoki” incluent les taxons parents de la baleine, les sous-classes de physiciens en français par exemple.

  • Wikidata donne des ailes au savoir libre, Lydia Pintscher, 2019, moz://a : Lien
  • Tutoriel Wikidata : Lien
  • Quelques liens WikiData : Sparql, Tutoriel
  • Wikidata Graph Builder, AngryLoki : Lien

7.3 Autres bases de connaissances et dictionnaires

  • BabelNet.org Live, doublé d’un moteur multilingue, interrogation du mot Personne : Lien
  • Proton (ptop), une ontologie généraliste (25 classes, 77 propriétés) : Lien; Protonext (pext) étend proton (488 classes, 115 propriétés, 72 individus) : Lien
  • The CWRC Ontology Specification (Canadian Writing Research Collaboratory), Une ontologie de haut niveau : Lien
  • GeoNames (base de données en géographie) : Lien
  • Getty Thesaurus of Geographic Names : Lien
  • ScoLOMFR. Description des ressources pédagogiques : Lien

8. Description des œuvres musicales

Plusieurs ontologies dédiées spécifiquement à la description du processus créatif et éditorial de la musique sont mises au point en France, au Royaume-Uni et aux USA.

8.1 L’ontologie Doremus (mus)

Le projet DOREMUS financé par l’ANR, réunit pendant trois ans de 2014 à 2017 la Bibliothèque Nationale de France, Radio France et la Philharmonie de Paris, ainsi que plusieurs universités et instituts de recherche. Les catalogues des trois institutions établis en MARC par des catalogueurs professionnels sont alignés et un portail de données est généré. L’ontologie DOREMUS est une extension de FRBRoo appliquée spécifiquement au domaine musical. Un Sparql endpoint de même qu’une recherche à facettes motorisés par Virtuoso rendent possible la recherche et la navigation.

  • Portail de données DOREMUS : Lien
  • DOREMUS Ontology : Lien
  • Doremus extension de l’ontologie FRBRoo pour la description des œuvres et événements musicaux : Lien
  • DOREMUS : We create a FRBRoo-based data model and multilingual controlled vocabularies, specifically designed for music, along with documentation, examples and tutorials : Lien, Documentation

8.2 The Music Ontology (mo)

Développée de 2007 à 2013 par le Centre for Digital Music de Londres, The Music Ontology se donne comme objectif de rendre possible la création de bases de connaissances cohérentes et interopérables à partir de plusieurs bases de données comme Musicbrainz, Wikipédia, des éléments du catalogue de la BBC, les données de réseaux sociaux. Elle s’utilise de manière conjointe avec Dublin Core, Timeline, Event et FOAF. Des exemples d’usages sont donnés.

  • The Music Ontology : Lien
  • Music Ontology, le wiki : Lien
  • DBTune.org : Lien

8.3 Performed Music Ontology (pmo)

Le projet Performed Music Ontology résulte de la collaboration de l’Université de Stanford, de la Music Library Association (MLA), de l’Association for Recorded Sound Collections (ARSC), de la Bibliothèque du Congrès et d’institutions partenaires du projet Linked Data for Production (LD4P). Le vocabulaire est une extension de BIBFRAME (bf), l’ontologie de la Bibliothèque du Congrès qui établit un alignement avec le format de catalogage MARC21 en usage dans de nombreuses bibliothèques. Un accent particulier est mis sur la clarification et l’extension de la modélisation des œuvres, des événements et de leurs contributeurs.

  • Performed Music Ontology : Lien

Au-delà du choix de l’ontologie qui semble reposer essentiellement sur des considérations nationales, se pose la question de la mise à jour des données.

9. Quelques outils du web de données

9.1 Répertoires d’ontologies

  • Linked Open Vocabularies (LOV), explorez l’onglet Vocabs (liste des ontologies, visualisation des liens entrant et sortants) et l’onglet Terms (liste de Classes et de propriétés) (700 ontologies, 29900 classes, 37700 propriétés en 2020), par l’Ontology Engineering Group de Madrid : Lien
  • BARTOC.org, Le répertoire d’ontologies de l’Université de Bâle : Lien
  • Ontology repositories au W3C : Lien
  • BioPortal, ontologies du domaine de la biologie et des biotechnologies : Lien
  • Open Metadata Registry : système pour auto-archivage des ontologies : Lien

9.2 Langages, éditeurs d’ontologies, gestionnaires de contenus

  • Omeka S User Manual , Docs > Resources > Vocabularies, un gestionnaire de contenu pour gérer un corpus à l’aide d’ontologies : Lien
  • Module Value Suggest (VIAF, Geonames) d’Omeka S : Lien
  • Langages dédiés au web de données : RDF, RDFS, OWL, SKOS, Notation3, Turtle (syntaxe), JSON-LD, SPARQL, …
  • Protégé, un éditeur d’ontologie : Lien
  • WebProtégé, une interface en ligne hébergée à Stanford : Lien

9.3 Visualiseurs

  • WebVOWL : Visualisez une ontologie au format OWL sur votre navigateur. Une ontologie peut être explorée à l’aide d’un simple navigateur : Lien, Exemple avec FOAF
  • LodLive : Visualisez graphiquement les liens et classes d’items du web de données. Explorer par exemple “Le corbeau” (1845) d’Edgar Allan Poe : Lien
  • Bienvenue aux sparna-labs ! : Le laboratoire de Thomas Francart : Lien
Ontologie Modern Science (ModSci) vue avec WebVOWL : Lien

Conclusion

Les organisations dictent souvent leurs choix en matière d’onotologies. Souhaitez vous optimiser le référencement de votre site web ? L’usage d’Open Graph et/ou de Twitter Cards se montre vivement conseillé. Disposez vous d’un corpus à organiser et à présenter sur le web ? Plusieurs choix se montrent possibles : 1/ Utiliser des ontologies de domaine comme SKOS, FOAF, DC ou BIBO pour décrire conjointement une variété d’agents (personnes, organismes), de documents publiés ou bien de documents d’archives (photo ancienne, correspondance, manuscrit, dossier, fonds), comme le font par exemple la BnF ou l’ABES, avec leurs bases sémantiques Data et IdRef. 2/ Se servir d’une seule ontologie de haut niveau comme le font des organismes tels que Wikipedia, DBPedia ou Google, l’INHA avec CIDOC-CRM, RDA pour les professionnels des bibliothèques. 3/ Créer sa propre ontologie adaptée à des besoins spécifiques. Plusieurs ontologies de domaine permettent une description rapide et synthétique d’une varitété d’éléments grossièrement caractérisés. Chacun de ces choix a également un coût, d’autant plus élevé que le nombre d’items à décrire est important et que la description souhaitée est précise. Bons choix stratégiques dans vos choix ontologiques !

  • Le sens du sens : les ontologies, ce n’est pas (que) de la philosophie ! , Chabot, 2017 : Lien
  • ModSci, Modern Science Ontology. Une ontologie des disciplines scientifiques : Lien
  • Ontology Alignment Evaluation Initiative: Six Years of Experience, Euzenat, 2011 : Lien
  • Ontology engineering : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire