Des ontologies pour les sciences humaines… et aussi pour les autres

Le web sémantique illustré par un graphe

L’ontologie désigne de manière initiale une branche de la philosophie qui dans son sens le plus général s’interroge sur la signification du mot «être». «Qu’est-ce que l’être ?» est une question considérée comme inaugurale, c’est-à-dire première dans le temps et première dans l’ordre de la connaissance. La discipline se trouve abordée notamment par Aristote dans le chapitre Γ de son abondamment commenté ouvrage Métaphysique. La sémantique du terme semble avoir varié au cours du temps et des auteurs dans le domaine de la philosophie elle-même. Les publications en 1991 d’Ewald Lang (Stuttgart), David Powers (Erlangen), de même que la synthèse de Tom Gruber en 1993 (Stanford) montrent le réemploi du mot dans les milieux de l’intelligence artificielle au début des années 90 pour désigner quelque chose d’assez différent.

Une ontologie informatique désigne alors un type de document qui rend possible la création de bases de connaissances. Les informations descriptives d’entités ou de processus de différentes natures peuvent être décrites à l’aide d’une ou de plusieurs ontologies. La logique mise en œuvre se montre purement descriptive. Les relations que des entités peuvent entretenir entre elles au sein d’une base de donnée sémantique se trouvent ainsi formalisées. On appelle “entité”, “chose” ou bien “ressource” n’importe quoi y compris des documents, des personnes et groupes de personnes, des objets physiques et des concepts abstraits. Une hiérarchie de classes se trouve ensuite définie qui admet “chose” comme racine. Avec le web sémantique et depuis 2006, les ontologies distinguent et localisent sur le web des classes de choses, leurs instanciations ainsi que les propriétés susceptibles de décrire les instanciations de ces classes.

Quelques étapes importantes marquent l’apparition du web sémantique et des ontologies. Les formats balisés SGML (1986), HTML (1991), RDF – Resource Description Framework (1997), XML (1999), RDFS – RDF Schema (2004), SKOS (2009), OWL – Web Onotology Language (2012) sont successivement mis au point. Les bases relationnelles comme ORACLE ou MySql, du langage SQL (1970 – 1990) et de la programmation orientée objet (1960 – 1990) jouent également un rôle prépondérant dans la formalisation du langage de requête SPARQL (2008) dédié à l’interrogation des bases de connaissance. La question qui apparaît en même temps que la création du World Wide Web (1993) et du W3C (World Wide Web Consortium) (1994) devient celle de l’interopérabilité et de l’ouverture des données.

Le W3C (World Wide Web Consortium), un organisme à but non lucratif localisés à Cambridge Massaschussetts, entend développer des protocoles et des recommandations dans le but d’assurer la croissance à long terme du web. L’éditeur d’ontologies Protégé est créé en 1999. Tim Berners Lee et le W3C contribuent à créer, formaliser et rendre populaire le web de données et les ontologies à partir de 2006. Les applications envisagées concernent l’indexation fine et structurée des pages du web relatives à des entités comme des personnes, des organisations, des documents publiés et non publiés, des événements, des actions et de nombreuses choses encore telles que des relations sociales.

Le web sémantique repose sur la notion que toute déclaration significative peut être réduite à un triplet sémantique de la forme (“sujet“, “prédicat“, “objet“) SPO, établissant une relation entre deux choses (sujet et objet) au moyen d’un prédicat (propriété). Des exemples significatifs de triplet pourraient être (“Aristote”, “est du type”, “humain”), (“Métaphysique”, “est du type”, “livre”) ou bien encore (“Métaphysique”, “a pour créateur”, “Aristote”), (“Métaphysique d’Aristote”, “a pour éditeur”, “Éditions Flammarion”). Les choses concernées par le web sémantique sont de nature publique. Ainsi, le triplet (“Mon exemplaire de la Métaphysique”, “est localisé sur”, “mon bureau”) ne présente pas d’intérêt pour le web sémantique et ne peut être déclaré vrai par aucune autorité. Les lecteurs, créateurs et diffuseurs d’ontologies utilisent généralement les notions suivantes :

  1. La notion d’item ou encore élément, entité. Un item correspond à un concept qui peut être décrit et qui peut jouer le rôle de “sujet” ou bien “d’objet”. La classe d’un item peut être définie à l’aide d’une propriété spéciale qui peut être intitulée “nature de”, “est un”. Une Classe, encore parfois confondue avec Type vient décrire les sortes ou catégories d’objets d’une base sémantique. Les Classes possiblement décrites sous la forme d’une hiérarchie de classes permettent de spécifier des caractéristiques qui vont du plus général au plus spécifique. L’entité présente à la racine d’une hiérarchie de classes est le plus souvent nommé Thing, Something ou Entity en anglais. On peut trouver de multiples classes reliées à Chose capables de décrire des choses physiques comme Animal domestique, Personne, Livre, Carte, Bibliothèque, Magasin ou bien encore en biochimie et médecine Gène, Protéine, MoléculePharmaceutique. Certaines ontologies définissent de manière descriptive des classes d’actions et de processus, comme par exemple ActionDeCréer, ActionDeChercher, ActionDeTrouver. Les classes sont généralement notées avec la première lettre de leur nom en majuscule et en “camel case” (mais pas toujours).
  2. Le terme de prédicat (encore appelé propriété ou champs de métadonnée selon le contexte) désigne le mot ou le verbe susceptible de décrire le sujet. Parfois communes à un ensemble de classes, parfois spécifiques d’un type particulier, les propriétés rendent possible la description des sujets et des relations entretenues avec l’objet. Appliqué à la classe Thing et donc systématiquement renseignée se trouve la propriété “url“. Toute chose doit disposer d’un identifiant du type URL pour exister sur le web de données et se trouve généralement nommée à l’aide d’un texte dans “name“. Au-delà de nom et url, des propriétés telles que description, identifiant, sujet peuvent décrire judicieusement des objets de toutes classes. La propriété “estAuteurDe” est susceptible de s’appliquer à un sujet du type personne et l’on attend en valeur le titre d’un document par exemple. Une propriété telle qu’isbn10 qualifie spécifiquement un objet de la classe Livre, éventuellement sous-classe de Document publié. Une série unique de 10 chiffres est attendue en valeur de cette propriété. C’est l’objet des ontologies que de définir des jeux de propriétés applicables à des classes d’objets particulières, de spécifier la nature autant sémantique qu’informatique des renseignements attendus en retour. La première lettre du nom d’une propriété est généralement notée en minuscule.
  3. Les valeurs admises en renseignement des prédicats se trouvent spécifiés dans l’ontologie. Les types attendus en renseignement des propriétés sont Item, Texte, URL, Nombre, Date, Booléen. L’appartenance à un dictionnaire des valeurs possibles peut être demandée.

Pour résumer à l’aide d’une sorte d’équation, on a :

Ontologie (i) = Classes (ii) + propriétés (iii) + règles d’usage (iv)

  • i/ ontologie ou vocabulaire ou graphe de connaissance
  • ii/ Classes, Types, Catégories de choses à décrire, souvent notée avec la première lettre en majuscule
  • iii/ propriétés ou métadonnées, ou éléments, ou colonnes d’un tableau, ou prédicat, ou attributs, renseignements sur des choses d’une nature donnée, noté généralement en minuscule
  • iv/ règles telles que l’organisation possiblement hiérarchique des Classes et des propriétés, valeurs attendues en renseignement des propriétés, héritage des propriétés, domaines d’application, contexte et exemples typiques d’usages

L’article décrit les notions de base nécessaires à la lecture d’une ontologie. Des ontologies spécifiques d’un domaine donné se distinguent de celles de haut niveau, les ontologies monolingues diffèrent des multilingues. Quelques vocabulaires fort simples utilisés dans le cadre de l’optimisation du référencement des sites web sont ici présentés. Des vocabulaires plus complexes se trouvent utilisés dans les bibliothèques, les archives, les musées, alors que d’autres concernent des métiers particuliers comme ceux de la santé par exemple.

  • Ontologie, CNRTL : Lien
  • The LILOG ontology from a linguistic point of view, 1991, Ewald Lang : Lien
  • Goals, Issues and Directions in Machine Learning of Natural Language and Ontology, 1991, David Martin Ward Powers : Lien
  • The Role of Common Ontology in Achieving Sharable, Reusable Knowledge Bases, 1991, Thomas Gruber : Lien
  • Toward Principles for the Design of Ontologies Used for Knowledge Sharing, 1993, Thomas Gruber : Lien
  • Enabling Standards & Technologies – Layer Cake, 2002, Tim Berners Lee : Lien
  • The Semantic Web Revisited, 2006, Shadbolt, Nigel, Berners-Lee, Tim and Hall, Wendy : Lien
  • La généalogie des SGBD, 2009, Fabien Celaia : Lien
  • Initiation à RDF 1.1, 2014, W3C : Lien
  • Upper ontology, Ontology (information science)

Sommaire

  1. Des formats et des politiques documentaires
    • 1.1 Ontologies généralistes ou spécialisées
    • 1.2 Propriété non liée, propriété liée interne, ou propriété liée externe ?
    • 1.3 Politique documentaire
  2. Vocabulaires du SEO
    • 2.1 Open Graph (og)
    • 2.2 Twitter Cards
    • 2.3 Schema.org (schema)
    • 2.4 Dublin Core (dc, dcterms)
  3. Ontologies des bibliothèques
    • 3.1 The Bibliographic Ontology (BIBO)
    • 3.2 FRBR, FRBR-aligned Bibliographic Ontology (FaBiO), FRBRoo
    • 3.3 The Library Reference Model (LRM) et Ressource Description & Acces (RDA)
    • 3.4 RDA-FR et la transition bibliographique (2015 – 2022)
    • 3.5 Évolution des SGB
    • 3.6 D’autres ontologies pour les bibliothèques et l’édition
    • 3.7 Ressources bibliographiques au format web de donnée
  4. Métiers des archives, des musées, de l’archéologie
    • 4.1 CIDOC-CRM
    • 4.2 Autres outils des archives et de l’histoire
  5. Métiers de la santé
  6. Personnes, organisations et relations sociales
    • 6.1 Friend of a friend (FOAF)
    • 6.2 vCards (vcard)
    • 6.3 Organization (org)
    • 6.4 Relationship (rel)
    • 6.5 Event (event)
    • 6.6 Semantically-Interlinked Online Communities (sioc)
    • 6.7 A vocabulary for biographical information (bio)
  7. Encyclopédies et bases de connaissance ouvertes
  8. Étude de cas : la musique
  9. Outils du web de données
  10. Conclusion

1. Des formats et des politiques documentaires

Des notations distinctes, mais conceptuellement équivalentes et plus ou moins adaptées à la lecture par l’homme ou l’ordinateur permettent l’écriture d’ontologies. On peut ainsi distinguer Web Ontology Language (OWL), Notation3 (N3), Turtle. Un autre langage Simple Knowledge Organization System (SKOS) est dédié à la notation des thesaurus, plans de classements, listes de sujet et taxonomies. OWL et SKOS s’appuient eux-mêmes sur des formalismes Resource Description Framework (RDF) et RDF Schema (RDFS) et permettent la notation des ontologies et items. À l’autre bout de la chaîne, les langages Microdata, RDFa et JSON-LD permettent l’exposition des métadonnées dans l’en-tête et dans le corps d’une page HTML du web en vue de partager la sémantique avec les moteurs et moissonneurs.

RDF constitue une syntaxe susceptible de décrire toute sémantique compréhensible par une machine et localisée sur le web à l’aide d’un triplet constitué d’un sujet, d’un prédicat et d’un objet. Un Triplestore est une base de donnée orientée graphe dédiée spécifiquement au stockage et à l’interrogation de multiples triplets RDF décomposés en collections de triplets sémantiques lors de leur ingestion. Des contenus structurés à l’aide d’ontologies et entrés dans le système peuvent alors être interrogés simultanément à l’aide du langage Sparql. Au niveau informatique, les ontologies introduisent une structuration des données fonctionnellement équivalente à celle mise en place lors de l’élaboration de bases de données relationnelles classiques.

Des applications particulières rendent possible le transit d’une base de donnée relationnelle à une base du web sémantique. Ainsi, D2RQ permet la conversion de données relationnelles en données sémantiques et une interrogation via un triple store devient possible. Un autre logiciel nommé Ontop assure les mêmes fonctionnalités. Les logiciels SPARNatural ou bien Yasgui se montrent en amont des triplestores capables d’assister l’utilisateur dans la formulation de requêtes Sparql et dans l’affichage des données sous forme de tableaux, de cartes ou de graphes divers.

  • Resource Description Framework; Model and Syntax Specification : Lien
  • D2RQ : Accessing Relational Databases as Virtual RDF Graphs : Lien
  • Ontop : traduit des requêtes SPARQL exprimées sur des graphes de connaissance en requêtes SQL exécutées sur des bases relationnelles. Il s’appuie sur le langage de mapping R2RML du W3C pour tirer partie d’ontologies légères : Lien
  • SPARNAtural : écrire des requêtes SPARQL, tout naturellement : Lien

1.1 Ontologies généralistes ou de domaine ?

Les ontologies sont écrites en anglais généralement; certaines se montrent multilingues comme par exemple Wikidata. Petite bémol d’importance en ce qui concerne les Classes de certaines ontologies comme Dublin Core, Open Graph ou Wikidata : la Classe se trouve définie en valeur de la propriété “type“, Classe et propriété se montrent alors possibles à confondre.

Des répertoires tels que Linked Open Vocabularies (LOV) permettent d’explorer plus de 700 ontologies. Les relations entrantes et sortantes, de même que les dates de création sont visualisés à l’aide de l’interface. De nombreux liens entrants sont à privilégier si l’on souhaite utiliser une ontologie populaire. Dans le domaine de la biologie, le portail BioPortal référence avec plus de 800 ontologies dont les domaines concernent la physique, le droit, les sciences en général.

Créer une ontologie ne présente d’intérêt que si celle-ci se trouve très largement utilisée dans une multitude de bases de connaissances et de données liées portées sur le web.

A gauche le graphe des ontologies qui se servent de BIBO;
à droite, celles utilisées par BIBO, une ontologie du domaine de la bibliographie : Lien

1.2 Politique de description des entités d’un corpus ?

Comment renseigner une propriété décrivant un objet d’un corpus ? Cela dépend à la fois de sa nature et du niveau de précision souhaité dans la description. Une politique doit être élaborée car plusieurs possibilités existent pour renseigner les propriétés et ainsi décrire un objet :

  1. Ne pas lier. Une métadonnée fournit un renseignement textuel répondant à des règles simples. Un champs date peut par exemple être noté avec une grande expressivité à l’aide de conventions : “1905” pour spécifier une année, “1905-12-09” pour plus de détails, “1905/1912” pour exprimer une durée, tout en maintenant la possibilité d’un tri alphabétique par valeur du champs, comme le préconisent EDTF ou la norme ISO 8601.
  2. Établir des liens internes. Un item d’un corpus peut être lié à un autre item du même corpus via un URI interne, indiquant une relation dont la nature se trouve précisée. L’année de création d’un objet par exemple peut être liée à une page dédiée afin de pouvoir lister les actions faites à un moment donné. Un article publié peut être lié à la page concernant un auteur; il peut être lié à une revue ou bien à une traduction. Autre exemple : Un colloque peut être détaillé avec des liens vers les conférences particulières données par plusieurs conférenciers avec la propriété hasPart. L’interface de consultation du corpus permet la navigation aisée entre documents liés, possiblement de classes différentes.
  3. Établir des liens externes. Si l’on dispose dans un domaine quelconque d’un référentiel incontournable capable de fournir des URI de qualité (BNF, Gallica, IdRef, VIAF, GeoNames, etc…), il est possible d’identifier un item en le liant de manière externe à l’aide d’un référentiel, d’une liste faisant autorité. Une personne, un organisme, un document ou un lieu géographique peuvent être ainsi identifiés de manière non équivoque. Des bases de connaissance comme Wikidata ou DBPedia référencent de tels référentiels.
“Corpus” par OWA, Acoustic ceiling system : Lien

1.3 Les usages

Trois applications principales peuvent être distinguées.

1/ Optimisation du référencement : Les ontologies reconnues de Google sont les suivantes : Open Graph, Twitter cards, Dublin Core et schema. Des plugins de WordPress ou Drupal en facilitent l’usage en vue de rendre plus visible un site dans les résultats de recherche. Du côté des promoteurs de ces ontologies (Facebook, Twitter, Dublin Core Metadata Initiative, Google et Microsoft), il convient d’assurer aux utilisateurs une stabilité dans la définition et l’organisation des classes et propriétés. Alors que les trois premières ontologies sont d’usage simple, schema développé initialement par Google associé à d’autres partenaires comprend plusieurs centaines de classes et de propriétés.

2/ Bibliothèques, archives, musées et encyclopédies : Les bibliothèques, archives et encyclopédies dont la visibilité est nationale ou internationale sont des adeptes d’ontologies dédiées à leurs métiers. Des institutions gèrent de manière interne leurs catalogues aux formats MARC (MARC21, INTERMARC, UNIMARC), EAD, EAC et autres. Ces organismes souhaitent valoriser leurs fonds sous forme de métadonnées et de documents en accès libre. Des portails de données ouvertes sont proposés au public. Du côte des bases de connaissances constitutives ou dérivées de Wikipédia, WikiData se montre incontournable.

3/ Recherche : Les concepts véhiculés par le web de données sont venus renouveler les pratiques documentaires et au-delà la gestion des données et métadonnées issues de la recherche. Des ontologies sont mises au point dans le but de rendre compatible des silos de données créés par des organismes différents. Un langage commun est recherché en vue de rendre possible des interrogations croisées, de faciliter l’interopérabilité et l’échange de données.

Au final, c’est souvent des choix populaires, l’usage des collègues et pairs, voire des choix faits au niveau national ou international qui guident les pratiques. L’ontologie d’une application réussie se doit de rester au final dénuée d’ambiguïté, quasiment invisible du public, largement partagée et évolutive.

Alignement de deux ontologies nommées o et o’ relative à la formalisation des conférences scientifiques : Lien

2. Vocabulaires du SEO

Le référencement de vos données sur le web, le “Search Engine Optimization” ou SEO dépend des choix dictés par les moteurs de recherche. Ceux-ci prennent en compte un faible nombre d’ontologies qu’il convient de connaître pour être reconnu.

2.1 Open Graph (og)

Le protocole Open Graph est créé originellement par Facebook mais a été adopté par plusieurs plateformes de réseaux sociaux parmi lesquels Pinterest, LinkedIn, Twitter. Un affichage standard est généré lorsqu’un lien vers une page est référencé dans Facebook. Son usage en fait l’un des outils du SEO car pris en compte par les robots d’indexation de Facebook et depuis 2010 de Google. Les métadonnées og se trouvent dans la balise <meta property> d’HTML. La valeur d’og:type spécifie la classe.

7 classes possibles en valeur d’og:type : article, book, image, music, profile, video, website. On remarque au passage que les noms de classe sont notés en minuscule, à l’inverse des conventions classiques.

4 propriétés obligatoires : og:type, og:title, og:image, og:url

7 propriétés optionnelles : og:audio, og:description, og:determiner, og:locale, og:locale:alternate, og:site_name, og:video

Des propriétés spécifiques viennent décrire les objets des classes article, book, profile, music et video. Renseignements relatifs à la bibliographie : article:published_time, article:modified_time, article:expiration_time, article:author, article:section, article:tag, book:author, book:isbn, book:release_date, book:tag. Métadonnées sur les personnes : profile:first_name, profile:last_name, profile:username, profile:gender. Une vingtaine de classes et propriétés concernent la musique.

<html prefix="og: https://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="video.movie" />
<meta property="og:url" content="https://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="https://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>
  • The Open Graph protocol (og) : Lien
  • Un guide de partage pour les administrateurs de sites, facebook for developers : Lien
  • Open Graph Check : Lien

2.2 Twitter Cards

Le protocole cartes Twitter (Twitter Cards) spécifie un ensemble de propriétés des balises <meta name> qui rendent possible le contrôle de l’apparence d’un site lorsque son URL est partagée sur Twitter, et au-delà TumblR ou Blogger. L’affichage sur smartphone est particulièrement considéré. Quatre formats de cartes sont possibles (4 classes spécifiées par la valeur prise par twitter:card) : 1/ La carte Résumé (summary), 2/ La carte Résumé avec grande image (summary_large_image), 3/ La carte Visionneuse de vidéo (player), 4/ La carte Application (app) pour affichage sur smartphone. Google reconnait le format depuis 2012 et des interactions avec Open Graph sont formalisées.

  • Les Cartes Twitter, twitter developer : Lien, Lien
  • Plugin Cartes Twitter pour WordPress : Lien

2.3 Schema.org (schema)

Google, Bing (Microsoft), Yahoo, Yandex spécifient schema en 2011 et lancent depuis de régulières mises à jour. L’objectif est pour les moteurs de renseigner des bases de connaissance à partir des pages parcourues par les robots d’indexation. Les éditeurs de sites web attendent en retour l’optimisation de leur référencement, la production de snippet riches qui mettent en valeur les contenus. La version 7.0 de schema sort le 10 mars 2020. La hiérarchie des classes s’est étendue au fil des versions. Les classes spécifiques héritent des propriétés des classes générales proches de la racine. Au-delà des préoccupations de marketing, schema peut décrire de manière aussi précise que souhaité une immense variété d’objets.

Schema s’avère assez complet et dispose d’une architecture solide. D’autres ontologies comme “The Product Types Ontology” ou “GoodRelations” étendent ses champs d’applications. Deux articles de ce blog concernent ce vocabulaire : Lien

2.4 Dublin Core (dc, dcterms)

Crée en 1995 à Dublin (Ohio) par le DCMI (Dublin Core Metadata Initiative) et antérieure à la notion de web de données, c’est le vocabulaire le plus ancien et le plus utilisé en première approche pour décrire tout document textuel sur le web. Dublin Core se trouve fréquemment associé à FOAF et BIBO pour décrire de manière complémentaire des entités du type document, personne et organisation.

a/ Classes des objets

Les classes sont spécifiées dans la propriété Dublin Core type. Les valeurs recommandées pour type sont listées dans le “DCMI Type Vocabulary”. Un ou plusieurs types peuvent être spécifiés simultanément, par exemple Text (contrôlé dans DCMI Type Vocabulary) et aussi Article (non contrôlé), exemples. Les 12 valeurs de DCMI Type :

Collection, Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text

b/ Propriétés simples et affinées

15 propriétés simples sont définies auxquelles sont ajoutées ici entre parenthèses des propriétés affinées – sortes de sous-propriété qui apportent une précision supplémentaire.

  1. contributor
  2. coverage > (spatial – pays en ISO 3166-1, temporal)
  3. creator
  4. date > (available, created, dateAccepted, dateCopyrighted, dateSubmitted, issued, modified, valid)
  5. description > (abstract, tableOfContents)
  6. format > (extent, medium)
  7. identifier > (bibliographicCitation)
  8. language (ISO 639-2, 639-3, RFC1766)
  9. publisher
  10. relation > (conformsTo, hasFormat / isFormatOf, hasPart / isPartOf, hasVersion / isVersionOf, isReferencedBy / references, isReplacedBy / replaces, isRequiredBy / requires)
  11. rights (accessRights, license)
  12. source
  13. subject
  14. title > (alternative)
  15. type
  • DCMI Metadata Terms, 2020 : Lien
  • Dublin Core™ User Guide > Publishing Metadata : Lien
  • Le plugin OpenLink Structured Data Sniffer disponible sous Chrome et Firefox permet d’afficher les métadonnées insérées dans une page web.
  • Le site web Structured Data Linter aide les webmestres et les développeurs web à verifier la conformité des données structurées de leurs pages HTML. Publié par structured-data.org, la doublure (linter) parse les formats microdata, JSON-LD et RDFa. Description d’un personne imaginaire rendue par Linter : Lien

3. Ontologies des bibliothèques

Les bibliothèques ont historiquement initié des réflexions sur l’organisation des connaissances et leur diffusion raisonnée au grand public. Plusieurs virages furent successivement pris parmi lesquels l’informatisation des catalogues et des prêts, l’arrivée des documents numériques, l’introduction du web de données. Comment décrire un livre ? Comment ranger dans des rayons livres, revues, disques et DVD ? Comment organiser les fichiers et métadonnées dans une bibliothèque numérique ? Différents niveaux de conceptualisation sont possibles. Quelques unes des ontologies dédiées à la description bibliographique sont ici évoquées et ordonnées du plus simple au plus complexe.

3.1 The Bibliographic Ontology (BIBO)

Créée en 2009, BIBO est une ontologie dite de bas niveau prévue pour un usage conjoint avec Friends Of A Friend (FOAF) – pour décrire les autorités (personnes, groupes, organisations) – et Dublin Core (dcterms) vu précédemment. Ce vocabulaire décrit essentiellement les agents, les documents et les événements qui conduisent à la production d’une œuvre. La hiérarchie des classes est ici visualisée sous forme d’une liste ordonnée. Les propriétés des classes sont ici notées entre parenthèses et le signe supérieur “>” montre la hiérarchie.

Thing (abstract, identifier > (asin, coden, doi, eanucc13, eissn, gtin14, handle, isbn, issn, Iccn, oclcnum, pmid, sici, upc, uri))

BIBO visualisé avec Protégé : Lien

3.2 FRBR, FRBR-aligned Bibliographic Ontology (FaBiO), FRBRoo

Le modèle conceptuel de données FRBR (Functionnal Requirements for Bibliographic Records) est publié par l’IFLA (International Federation of Library Association) en 1997. Il modélise les théories et pratiques du catalogage en vigueur dans les bibliothèques universitaires, régionales et nationales. La description du processus créatif complet depuis la création d’une œuvre par son auteur jusqu’à l’obtention d’un exemplaire par un propriétaire est prise en considération. Des livres, revues, journaux, films et documentaires, pièces musicales, blogs et pages du web, ensembles de données, codes et logiciels, vocabulaires et dictionnaires, décisions légales et arrêts rendus, archives gouvernementales, rapports techniques et commerciaux voire plus se trouvent possiblement décrits par le modèle FRBR.

Une hiérarchie de quatre entités constitue le cœur du modèle. L’entité Work traduite en français par “Œuvre” se trouve à la racine. Bien qu’abstrait et non matériel, Work rend possible la création d’un lien entre une œuvre originale nommée et plusieurs expressions dérivées possibles. Expression correspond à la réalisation d’une œuvre et concerne essenttiellement la ou les éditions de la même oeuvre quelque soit sa nature. Les aspects intellectuels et juridiques sont pris en considération. Des variations importantes et distinctes d’une simple correction correspondent à une nouvelle expression de la même œuvre – une nouvelle édition par exemple. Les aspects physiques se trouvent décrits dans l’entité Manifestation. Une manifestation unique réunit tous les objets physiques qui présentent les mêmes caractéristiques physiques. Une matérialisation distincte correspond à une autre manifestation. Et enfin Item rassemble les propriétés en relation avec un exemplaire particulier. L’identifiant local ou le lieu de rangement habituel sont renseignés à ce niveau. Des variations entre items peuvent correspondre à un état physique particulier, à l’ajout d’une dédicace par exemple. L’action d’agents individuels ou collectifs sous-tend l’ensemble du processus et l’acronyme WEMI est généralement donné pour mémoriser aisément la hiérarchie des entités.

Relations entre classes avec FaBiO et étapes du processus éditorial
Catalogue, chercher le littéraire, du papier au numérique, F. Glorieux, 2017 : Lien

Une première édition de FRBR est réalisée par Ian Davis, Richard Newman et Bruce D’Arcus en 2005 et nommée Expression of Core FRBR Concepts in RDF. Treize classes et 48 propriétés s’y trouvent définis. FaBiO (the FRBR-aligned Bibliographic Ontology) est une autre ontologie dérivée du modèle FRBR élaborée à partir de 2012 et jusqu’en 2019. Elle fait partie de la suite SPAR (Semantic Publishing and Referencing Ontologies), un groupe d’ontologies dédiées à la description bibliographique. FaBiO est prévue pour fonctionner en complément de Core FRBR, de PrisM, de dcterms et foaf. Les classes sont notées en minuscule suivies de C en exposant. L’exposant est ici omis et le minuscule conservé. Certaines classes admettent plusieurs classes parentes et sont marquées d’un signe + car présentes en double :

Des propriétés associées aux objets WEMI ou aux données sont distinguées.

Propriétés associées aux objets : has creator, has discipline / is discipline of, has embodiment / is embodiment of, has exemplar / is exemplar of, has format, has language, has license, has manifestation, has part / is part of, has place of publication, has portrayal, has primary subject term, has publisher, has realization / is realization of, has representation / is representation of, has rights, has subject term, is in scheme, is manifestation of, is portrayal of, is scheme of, is stored on / stores

Propriétés associées aux données : abstract, alternate title, date last updated, has acceptance date, has access date, has ArXiv identifier, has character count, has CODEN, has copyright date, has copyright year, has correction date, has creation date, has date, has date collected, has date received, has deadline, has decision date, has deposit date, has DOI, has edition, has eISSN, has electronic article identifier, has embargo date, has embargo period, has ending page, has handle, has identifier, has ISBN, has ISSN, has ISSN-L, has issue date, has issue identifier, has keyword, has modification date, has National Library of Medicine journal identifier, has National Library of Medicine journal title abbreviation, has number, has page count, has page range, has patent number, has PII, has preprint dissemination date, has publication date, has publication year, has PubMed Central identifier, has PubMed identifier, has request date, has retraction date, has season, has short title, has SICI, has standard number, has starting page, has submission date, has subtitle, has title, has translated subtitle, has translated title, has URL, has validity date, has version identifier, has volume count, has volume identifier, has word count, section, uses calendar

Les supports possibles, annotations et dictionnaires de référence ne sont pas oubliés. Des exemples complètent les spécifications SPAR. La relative complexité de FaBiO fait que son usage est plutôt réservé à des équipes quasi-professionnelles dans le domaine du catalogage en bibliothèque. Dérivée des modèles conceptuels FRBR et CIDOC-CRM, l’ontologie FRBRoo voit le jour en 2008. Une adaptation est mise au point et maintenue par l’Université d’Erlangen. Quelques liens :

  • FRBR : Travaux de l’IFLA, 1992, 1998, 2009 : Lien
  • FRBR, Expression of Core FRBR Concepts in RDF, 2005 : Lien
  • FaBiO, 2012, résumé et exemples : Lien
  • FaBiO, publié sur github Lien1, Lien2, bibo.owl
  • FaBiO, the FRBR-aligned Bibliographic Ontology, 2019 : Lien
  • FaBiO and CiTO: ontologies for describing bibliographic resources and citations, Journal of Web Semantics, 17: 33-43, Peroni, S., Shotton, D. (2012) : Lien
  • Expression of Core FRBR Concepts in RDF, 2005 : Lien
  • FRBRoo : intégration de FRBR dans le CIDOC-CRM, 2008. Les classes sont préfixées E et F (F1 Work), les propriétés P et R (R3 is realised in) : Documentation Erlangen, Lien
  • SPAR Ontologies : Lien
  • Exemples d’usage des ontologies SPAR : Lien

3.3 The Library Reference Model (LRM), Ressource Description & Acces (RDA)

Un modèle entité association dédié à la description des notices d’autorités Functional Requirements for Authority Data (FRAD) est émis par l’IFLA en 2009. Les données d’autorité représentent les points d’accès contrôlés dont se servent les institutions pour colocaliser les oeuvres d’une personne, d’une famille ou d’une collectivité particulières ou les différentes éditions d’un titre. D’autres travaux de modélisation aboutissent en 2010 avec la publication de Functional Requirements for Subject Authority Data (FRSAD). Les notices d’autorité sujet – mots-clés, lieux et époques nommées. FRBR, FRAD et FRSAD se trouvent intégrés dans Library Reference Model (LRM) publié en 2017. Les entités Agent, Time-span, Place, Nomen et Res se trouvent introduits et viennent compléter WEMI.

En parallèle des travaux conceptuels de l’IFLA, le RDA Steering Comitee élabore de 2010 à 2013 l’ontologie Ressource Description & Acces (RDA). Le FRBR, puis le LRM “trouvent une expression” dans RDA. Une ontologie accompagnée d’un guide de catalogage en anglais deviennent accessibles. Le CIDOC-CRM s’empare également du LRM en 2020 pour produire LRMoo, une ontologie dérivée également de FRBRoo.

De nombreuses bibliothèques nationales dont la Bibliothèque du Congrès puis la British Library, la Bibliothèque et Archives du Canada, la Bibliothèque nationale australienne, la Bibliothèque nationale allemande, la Bibliothèque nationale d’Espagne, la Bibliothèque nationale de Lettonie, la Bibliothèque nationale des Pays-Bas adoptent progressivement RDA.

  • Fonctionnalités requises des données d’autorité (FRAD) : Lien
  • Functional Requirements for Subject Authority Data (FRSAD) : Lien
  • Modèle de référence IFLA pour les bibliothèques : Lien
  • LRM (Library Reference Model), IFLA, 2017 : Lien
  • Ressources : description et accès : Lien
  • RDA Registry : Le Registre RDA contient des ontologies qui représentent les entités RDA, les propriétés et vocabulaires contrôlés spécifiques des propriétés exprimés en Resource Description Framework (RDF) : Lien
  • Ressources : description et accès : Lien
  • LRMoo (formerly FRBRoo) object-oriented definition and mapping from IFLA LRM : Lien

3.4 La transition bibliographique RDA-FR (2015/2022)

La création de data.bnf.fr en 2011 constitue une étape majeure en direction du web de données, de l’ouverture au public de données bibliographiques enfouies dans des systèmes inaccessibles et incompréhensibles du grand public. D’autres travaux plus théoriques se poursuivent pendant ce temps en France.

La lecture de RDA par les spécialistes des métadonnées de l’Agence bibliographique de l’enseignement supérieur (Abes) et de la Bibliothèque nationale de France (BnF) se poursuit de 2010 à 2014. L’Abes et la BnF publient un communiqué commun en 2014 officialisant la position française : se rapprocher le plus possible du code RDA tout en conservant l’analyse catalographique à la française. Le principe justifiant cette position est celui de la non régression. Il a a nécessité de ne pas perdre les informations contenues dans les notices d’ancienne génération. La BnF travaille en INTERMARC. Elle fait évoluer son format vers INTERMARC ng pour intégrer progressivement les apports successifs de FRBR et LRM.

Le projet Transition bibliographique est lancé en 2015. Il a pour objectif de faire évoluer progressivement les règles de catalogage vers le modèle national RDA-FR. Trois groupes de travail sont constitués. Le Groupe de normalisation est chargé de rédiger le futur code de catalogage. Il prépare également des demandes d’évolution de RDA dans le cadre du groupe RDA EURIG. Le Groupe Formation élabore des supports pédagogiques et monte des formations à destination des bibliothécaires. Le Groupe Systèmes & Données travaille sur les aspects plus spécifiquement informatiques du projet.

  • Transition bibliographique, des catalogues vers le web de données : Lien, (Normalisation, Formation, Systèmes & Données)
  • European RDA Interest Group : Lien
  • À défaut d’enterrement : les défis et les promesses de l’INTERMARC nouvelle génération. Peyrard, 2018 : Lien
  • Appliquer FRBRoo à la Bibliothèque nationale de France ? M. Roche, 2019 : Lien
  • Seconde expérimentation Sudoc FRBR / LRM (octobre 2019 – …), ABES : Lien

3.5 Évolution du SGB

La révolution que constitue pour les bibliothèques l’introduction de FRBR et du web de données, de même que le développement du réseau Internet ont entrainé une évolution rapide non seulement de la structure des métadonnées mais encore des Systèmes de Gestion de Bibliothèque eux-mêmes. Ceux-ci sont développés par des sociétés de services spécialisées et déployées dans toute bibliothèques. Les fonds subissent une “FRBRisation” et le mode Saas Software As A Service devient proposé en plus des traditionnels logiciels. Des SGB deviennent publiés en libre ce qui ne signifie pas gratuit, d’autres deviennent mutualisés et accessibles uniquement via Internet.

  • SGB, SGBm… les nouvelles dynamiques. Outils et acteurs dans un contexte en mouvement, Ar(abes)que, 2018 : Lien

3.6 D’autres ontologies pour les bibliothèques, l’édition et la recherche

  • BIBFRAME (bf), 2014 : L’ontologie de la Bibliothèque du Congrès, version au format web de données et FRBR de MARC21, le format de catalogage bien connu des bibliothèques : Lien
  • GND Ontology (Deutsche National Biblothek) : Une ontologie utilisée de manière internationale pour décrire les autorités personne, organisme, sujet et titre : Lien
  • CiTO, the Citation Typing Ontology, un vocabulaire SPAR dédié aux citations bibliographiques et à l’étude de leur sémantique : Lien
  • PRISM, The Publishing Requirements for Industry Standard, jeu de métadonnées défini à plat en XML et fréquemment utilisé (data.BnF) en complément de Dublin Core : Lien
  • MADS (Metadata Authority Description Schema in RDF) : une ontologie produite par la Bibliothèque du Congrès pour décrire simplement des autorités (auteurs de textes et affiliations, personnes et organismes) : Lien
  • Nature Publishing Group ontology (npg) 2015, l’ontologie de SciGraph, le portail de données de Springer Nature : Lien1, Lien2
  • ModSci, Modern Science Ontology 2019, powers two projects for semantically representing scholarly information: Open Research Knowledge Graph 1 and OpenResearch.org

3.7 Ressources bibliographiques au format web de donnée

  • ABES (Agence Bibliographique de l’Enseignement Supérieur), Data IdRef, Autorités et littérature académique (personnes, organismes, articles, livres, thèses) : Lien, sparql end-point : Lien, https://data.idref.fr/endpoint.html
  • BnF (littérature) : data.bnf.fr, Lien sparql end-point, https://data.bnf.fr/opendata
  • Hal (littérature scientifique française), Sparql end-point : Lien
  • Persée (littérature académique en sciences humaines), sparql end-point : Lien, Sparklis, interrogation d’un Sparql endpoint en langage naturel : Lien
  • Isidore (contenus de corpus de sciences humaines), sparql end-point : Lien
  • Ontologie ISTEX, data.istex.fr (littérature scientifique)
  • Biblissima : Lien, (littérature médiévale)
  • VIAF (personnes et organismes, autorités) : Lien
  • searchFast (notices bibliographiques, autorités) : Lien
  • Isidore, Huma-Num : Lien

4. Métiers des archives, des musées, de l’archéologie, de l’art, de l’histoire

Les activités des archives, musées et de l’archéologie se distinguent expressément de celles des bibliothèques par le fait que les artéfacts et oeuvres préservées sont à la fois uniques et reliées entre elles. Les archives sont le fruit des activités de personnes, de familles ou d’organismes accumulés naturellement au cours de leur existence. Les normes de l’archivage sont essentiellement EAD (1993) et EAC-CPF (2004) publiés sous forme de DTD et au format XML. La publication de CIDOC CRM en 1999 constitue une étape qui a grandement influencé l’évolution du modèle FRBR.

4.1 CIDOC-CRM

Le Modèle Conceptuel de Référence du CIDOC (CIDOC CRM) émerge en 1994 des travaux du Groupe de Documentation sur les Standards CIDOC du Comité International de la Documentation de l’International Council of Museums. A partir de 1996, l’approche du groupe s’oriente vers les méthodes orientées objet pour aboutir à la première édition du CIDOC Conceptual Reference Model (CRM) en 1999. Le processus de standardisation débute en 2000 et la publication devient norme ISO 21127 en 2006. Le vocabulaire est décliné par l’Université d’Erlangen en une version OWL dénommée Erlangen CRM. Cette ontologie de haut niveau entend non sans controverse être capable de décrire tout objet culturel.

La version courante Erlangen CRM est ici évoquée. Les classes sont au nombre de 85 et il y a 283 propriétés. La syntaxe mèle identifiant et texte en anglais. Les propriétés et exemples de valeurs de chaque classe sont décrites dans la documentation. Les propriétés sont de la forme P suivi d’un chiffre comme par exemple P72 has language (is language of) ou bien P102 has title (is title of). On a sous E1 CRM Entity la hiérarchie des classes :

Plusieurs éléments remarquables apparaissent à la lecture du modèle conceptuel doublé d’une ontologie. Quelques classes comme E21 Person, E34 Inscription ou E35 Title de même que des portions de hiérarchies comme E73 Information Object et E90 Symbolic Object admettent plusieurs classes parentes et se retrouvent ici dupliquées et marquées du signe “+” dans la hiérarchie.

La classe Thing (E70 Thing) ne se trouve pas à la racine de l’arborescence mais à l’intérieur de celle-ci. Des notions comme les événements (E5 Event) ou les acteurs (E39 Actor) sont décrites indépendamment de Thing. Les organisations sont vues comme des sortes de groupes (E40 Legal Body). La classe (E55 Type) de E70 Thing correspond à la possibilité d’étendre CIDOC CRM à des ontologies et thesauri spécifiques de domaines. CIDOC CRM peut servir de vocabulaire d’alignement comme le propose par exemple l’interface OntoME du LARHA. Des alignements et collaborations concernent plusieurs domaines parmi lesquels FRBRoo, PRESSoo ou CRMsoc pour la modélisation des phénomènes sociaux peuvent être cités. La complexité de cette ontologie fait que son usage reste réservé aux personnes ayant suivi une formation. Documentation, sites et outils :

  • CIDOC-CRM : Le modèle conceptuel de référence pour les objets patrimoniaux des musées et de l’archéologie : Lien;
  • CIDOC-CRM : Modèles compatibles et collaborations : Lien
  • CIDOC-CRM : FRBRoo / LRMoo : Lien
  • Hiérarchie des classes CIDOC CRM par Sparna Labs : Lien
  • Tutoriel CIDOC-CRM Sparql sur les données du British Museum à collection.britishmuseum.org, Thomas Francart, 2018 : Lien
  • Erlangen CRM : The Erlangen CRM / OWL is an interpretation of the CIDOC CRM in a logical framework attempting to be as close as possible to the text of the specification : Lien
  • OntoME (Ontology Management Environment, Larhra). Un environnement pour aligner les ontologies des domaines de l’histoire, la géographie, les bibliothèques, les archives et autres données culturelles, notamment sur CIDOC CRM : Lien

4.2 Autres ontologies et outils des archives et de l’histoire

  • Records in Context (RIC) (archives, Conseil International des Archives)
    • Projet de nouvelle norme de description archivistique se basant sur un modèle conceptuel de celle-ci, publiée et mise en consultation en 2016 par le Conseil international des archives : Lien, Matterhorn tools : Lien, à l’ICA, version 0.1 (archives) : Lien, Vidéo, 18:23 : Lien
    • RiC-CM, RiC-O : les Archives se dotent de leur modèle conceptuel (Records in Contexts), Thomas Francart, 2020 : Lien
    • Records in Contexts Ontology (archives), Pastor-Sánchez, 2017 : Lien
  • PACTOLS, vocabulaires de l’archéologie : Lien
  • OpenArchaeo : Lien
  • Symogih.org (Larhra, histoire), ontologie alignée sur Cidoc CRM : Connaissance > (Biographie, Représentation spatiale de l’information, Types d’information génériques, Vie des institutions, Vie économique, Vie intellectuelle, Vie religieuse, Vie sociale) : Lien
  • PREMIS : L’ontologie de la bibliothèque du Congrès dédiée à la préservation des objets numériques : Lien
  • PeriodO : Lien (périodes historiques)
  • Art & Architecture Thesaurus, Getty as LOD (musées) : Lien, Lien
  • Vocabulaires du Getty Research Institute (utilisés par la Bibliothèque du Congrès) : Lien

5. Métiers de la santé

Les métiers de la santé, de même que la documentation dans le domaine de la médecine ont connu une adaptation des anciens thésaurus et outils documentaires aux nouveaux formats. Ainsi, le vocabulaire MESH (Medical Subject Headings) est devenu accessible en RDF et interogeable via SPARQL. De nombreuses autres initiatives concernent ce domaine.

Phast poursuit son action de diffusion de SNOMED CT en France, 2017 : Lien
  • Medical Subject Headings (MeSH) RDF is a linked data representation of the MeSH biomedical vocabulary produced by the National Library of Medicine. MeSH RDF includes a downloadable file in RDF N-Triples format, a SPARQL query editor, a SPARQL endpoint (API), and a RESTful interface for retrieving MeSH data : Lien
  • BioPortal : the world’s most comprehensive repository of biomedical ontologies : Lien
  • The OBO Foundry, répertoire des ontologies de différents domaines de la biologie et de la médecine : Lien
  • SNOMED Clinical Terms, ensemble organisé de plus de 300 000 concepts à disposition des acteurs de santé : Lien
  • NCI Thesaurus couvre le domaine du cancer : Lien
  • Unified Medical Language System, NLM : Lien1, Lien2
  • GENEONTOLOGY; le consortium GO un modèle informatique des systèmes biologiques du niveau moléculaire au niveau organisme entier de plusieurs espèces : Lien
  • The CWRC Illness and Injury Ontology : Lien
  • BIO2RDF, Linked Data for the Life Sciences : Lien1, Lien2
  • Healthcare metadata – DICOM ontology, (Digital Imaging and Communications in Medicine) : Lien

6. Personnes, organisations et relations sociales

6.1 Friend of a friend (FOAF)

Créée au milieu des années 2000, FOAF a progressivement évolué et constitue l’une des ontologie les plus largement utilisée de nos jours en même temps que vCards pour décrire les individus et les organisations. Une hiérarchie de classe est proposée, accompagnée de propriétés spécifiques de la classe :

6.2 vCards (vcard)

Format de fichier pour l’échange de cartes de visites électroniques créé en 1998 par l’IETF pour l’échange d’informations personnelles et professionnelles par eMail, MMS, messagerie instantanés ou QR code. Défini comme une ontologie par le W3C en 2014 : Lien

Hiérarchie des classes

Liste des propriétés

address, agent, email, geo, has additional name, has address, has calendar busy, has calendar link, has calendar request, has category, has country name, has email, has family name, has formatted name, has gender, has geo, has given name, has honorific prefix, has honorific suffix, has key, has language, has locality, has logo, has member, has messaging, has name, has nickname, has note, has organization name, has organization unit name, has photo, has postal code, has region, has related, has role, has sound, has source, has street address, has telephone, has title, has uid, has url, has value, key, logo, name, organization, photo, sound, telephone, url

6.3 Organization (org)

Fonctionnement d’une organisation, gouvernementale ou non, dont des agents sont répartis sur plusieurs sites, ont des postes et jouent des rôles. Dépend de l’ontologie PROV-O, de FOAF : Lien

Classes : prov:Activity > (ChangeEvent), Membership, Organization > (FormalOrganization, OrganizationalCollaboration, OrganizationalUnit), Post, skos:Concept > (Role), Site

Propriétés : basedAt, changedBy, classification, hasMember, hasMembership, hasPost, hasPrimarySite, hasRegisteredSite, hasSite, hasSubOrganization, hasUnit, headOf, heldBy, holds, identifier, linkedTo, location, memberDuring, memberOf, member, organization, originalOrganization, postIn, purpose, remuneration, reportsTo, resultedFrom, resultingOrganization, role, roleProperty, siteAddress, siteOf, subOrganizationOf, transitiveSubOrganizationOf, unitOf

6.4 Relationship (rel), SORON (sor)

Œuvre de Ian Davis et Eric Vitiello Jr de 2003 à 2010, un vocabulaire pour décrire les relations sociales, familiales, professionnelles et de voisinage. A utiliser conjointement avec FOAF : Lien

Créée en 2020, SORON (Social Relationships ONtology) constitue une autre ontologie dédiée à la modélisation des relations sociales et qui complète FOAF et Relationship : Lien

6.5 Event (event)

Créé en 2007 par le Centre for Digital Music de Londres, cette ontologie rend possible la description d’événements culturels. Friends of a friend permet la dscription des agents. Les vocabulaires time et geo décrivent les informations spatio-temporelles, date, durée et lieux de l’événement :

Event (agent, factor/isFactorOf, literal_factor, place, producedIn, sub_event, time), Factor, Product

  • The Event Ontology, 2007 : Lien
  • WGS84 Geo Positioning (geo), 2003 : Lien1, Lien2
  • Time Ontology (time), 2006-2017 : Lien

6.6 Semantically-Interlinked Online Communities (sioc)

Description de communautés et réseaux sociaaux, listes de discussion et sites webs : Community, Container, Forum, Item, Post, Role, Site, Space, Thread, UserAccount, Usergroup : Lien

6.7 A vocabulary for biographical information (bio)

Le vocabulaire BIO rend possible en complément de Dublin Core, Event et Friends of a Friend la description d’évènements biographiques centrés sur les individus. Les classes Person et Event sont définies respectivement par les ontologies Friends Of A Friend et Event. La classe Agent est spécifiée par BIO et non Friends Of A Friend.

L’évènement Employment par exemple positionne la personne au centre de la description plutôt que l’organisme employeur. Birth par exemple admettent date et place comme propriété. La biographie du roi Henry VIII est donnée en exemple en fin de description : Lien

Classes associées à Person : Biography, Birth Event, Child, Death Event, Father, Key Words, Life Event, Mother, One-line bio

Exemple d’usage en turtle, Pressac : Lien

@prefix person: <http://prelib.huma-num.fr/person/> .
@prefix event: <http://prelib.huma-num.fr/event/> .
@prefix place: <http://prelib.huma-num.fr/place/> .
@prefix cidoc: <http://www.cidoc-crm.org/cidoc-crm/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix tgn: <http://vocab.getty.edu/tgn/> .

person:80 a cidoc:Person, foaf:Person ;
dc:title "Théodore-Claude-Henri Hersart de la Villemarqué (1815-1895)"@fr ;
foaf:name "Théodore-Claude-Henri Hersart de la Villemarqué"@fr ;
foaf:givenName "Théodore Claude Henri"@fr ;
foaf:familyName "Hersart de la Villemarqué"@fr ;
foaf:nickname "Barz Nizon"@br, "Kervarker"@br;
foaf:gender "male"@en, "homme"@fr ;
bio:birth event:1 ;
bio:event event:3 .

event:1 a bio:Birth ;
rdfs:label "Naissance de Théodore-Claude-Henri Hersart de la Villemarqué le 7 juillet 1815 à Quimperlé"@fr ;
bio:date "1815-07-07"^^xsd:date ;
bio:place tgn:7009459 ; # Voir http://vocab.getty.edu/tgn/7009459
bio:parent person:1115 , person:1114 ;
bio:principal person:1 .

event:3 a bio:Enrolment;
rdfs:label "Entrée au collège des Jésuites de Keranna à Quimper"@fr ;
bio:organization organization:1 ;
bio:date "1825"^^xsd:Year ;
bio:place tgn:7008262 ;
bio:principal person:1 .

7. Encyclopédies et bases de connaissances ouvertes

7.1 The DBpedia Ontology (dbpedia-owl)

Créée à partir de 2007 par l’Université de Berlin par extraction automatique des données factuelles dérivées des infoboxes de Wikipédia, l’ontologie couvre actuellement 685 classes décrites par 2795 propriétés différentes. Elle se distingue par son aspect multilingue (jusqu’à 16 langues selon les entrées) et son ontologie. DBO comprend 57 classes de premier niveau. Quelques unes des classes de premier et second niveau sont ici listées. DBpedia renseigne la propriété de owl equivalentClass. On apprend ainsi aisément que le concept de Person compris par DBPedia est équivalent à celui défini dans foaf ou schema.

Des versions anglaise, allemandes et françaises de DBPedia sont actuellement maintenues :

  • Navigation dans la hiérarchie des classes : Lien
  • Sparql endpoint DbPedia : Lien
  • DbPedia en français à partir de 2012 avec de nombreux outils et tutoriels : Lien
  • Information Wikipédia sur DBpedia : Lien
  • Henri Poincaré via DBpedia France : Lien

7.2 Wikidata

Wikidata, développé à partir de 2012 par Wikimedia Allemagne, cette base de connaissance multilingue peut être éditée en anglais par tout bénévole et se trouve disponible sous licence CC0 proche du domaine public. Une dimension industrielle est visée et les serveurs se doivent de répondre de manière fiable. Wikidata sert possiblement à générer les infobox et les notices d’autorité de l’ensemble des différentes versions linguistiques de Wikipédia. Chaque élément est identifié de manière univoque et multilingue par un numéro débutant par la lettre Q. Ainsi Q1 identifie univers, Q2 Terre, Q3 vie, Q4 mort, Q5 être humain, Q8 bonheur, etc. Un élément wikidata correspond au choix au sujet ou à l’objet dans le triplet sujet -> prédicat -> objet.

La propriété P31instance of” ou “nature de l’élément“, détermine la classe de l’objet. P279subclass of” identife une hiérarchie des classes. Si nous nous intéressons à Q5 “être humain” par exemple, celui-ci est de la classe Homo sapiens Q15978631 et admet comme classe supérieure personne, personne physique et omnivore. D’autres propriétés fréquemment renseignées et pertinentes au niveau structure des données sont P361part of” (humanité), P18image“, P2579studied by” (anthropologie, écologie humaine). Une propriété wikidata correspond au prédicat dans le triplet sujet -> prédicat -> objet.

La propriété P1552 has quality nomme les qualités attendues, possibles à qualifier et pour certaines quantifier (gravité pour univers; masse, champ magnétique et habitabilité pour la Terre; nom, âge, genre, conscience de soi, connaissance de soi, personnalité pour Q5 être humain). Des liens vers d’autres bases de connaissances et encyclopédies concluent la description des items et propriétés.

L’ontologie de Wikidata présente une structure réticulée. Elle peut être interrogée et visualisée sous forme de graphes à l’aide d’outils particuliers comme Wikidata Graph Builder. La classe racine est nommée something. Le réseau des classes de book Q571 peut être ainsi manipulé. Des graphes donnés à titre d’exemple incluent les taxons parents de la baleine, les sous-classes de physiciens en français et d’autres choses amusantes.

  • Wikidata donne des ailes au savoir libre, Lydia Pintscher, 2019, moz://a : Lien
  • Tutoriel Wikidata : Lien
  • Quelques liens WikiData : Sparql, Tutoriel
  • Wikidata Graph Builder, AngryLoki : Lien

7.3 Autres bases de connaissances et dictionnaires

  • BabelNet.org Live, doublé d’un moteur multilingue, interrogation du mot Personne : Lien
  • Proton (ptop), une ontologie généraliste (25 classes, 77 propriétés) : Lien; Protonext (pext) étend proton (488 classes, 115 propriétés, 72 individus) : Lien
  • The CWRC Ontology Specification (Canadian Writing Research Collaboratory), Une ontologie de haut niveau : Lien
  • GeoNames (base de données en géographie) : Lien
  • Getty Thesaurus of Geographic Names : Lien

8. Étude de cas : la musique

Plusieurs ontologies dédiées spécifiquement à la description du processus créatif et éditorial de la musique sont mises au point en France, au Royaume-Uni et aux USA.

8.1 L’ontologie Doremus (mus)

Le projet DOREMUS financé par l’ANR, réunit pendant trois ans de 2014 à 2017 la Bibliothèque Nationale de France, Radio France et la Philharmonie de Paris, ainsi que plusieurs universités et instituts de recherche. Les catalogues des trois institutions établis en MARC par des catalogueurs professionnels sont alignés et un portail de données est généré. L’ontologie DOREMUS est une extension de FRBRoo appliquée spécifiquement au domaine musical. Un Sparql endpoint de même qu’une recherche à facettes motorisés par Virtuoso rendent possible la recherche et la navigation.

  • Portail de données DOREMUS : Lien
  • DOREMUS Ontology : Lien
  • Doremus extension de l’ontologie FRBRoo pour la description des œuvres et événements musicaux : Lien
  • DOREMUS : We create a FRBRoo-based data model and multilingual controlled vocabularies, specifically designed for music, along with documentation, examples and tutorials : Lien, Documentation

8.2 The Music Ontology (mo)

Développée de 2007 à 2013 par le Centre for Digital Music de Londres, The Music Ontology se donne comme objectif de rendre possible la création de bases de connaissances cohérentes et interopérables à partir de plusieurs bases de données comme Musicbrainz, Wikipédia, des éléments du catalogue de la BBC, les données de réseaux sociaux. Elle s’utilise de manière conjointe avec Dublin Core, Timeline, Event et FOAF. Des exemples d’usages sont donnés.

  • The Music Ontology : Lien
  • Music Ontology, le wiki : Lien
  • DBTune.org : Lien

8.3 Performed Music Ontology (pmo)

Le projet Performed Music Ontology résulte de la collaboration de l’Université de Stanford, de la Music Library Association (MLA), de l’Association for Recorded Sound Collections (ARSC), de la Bibliothèque du Congrès et d’institutions partenaires du projet Linked Data for Production (LD4P). Le vocabulaire est une extension de BIBFRAME (bf), l’ontologie de la Bibliothèque du Congrès qui établit un alignement avec le format de catalogage MARC21 en usage dans de nombreuses bibliothèques. Un accent particulier est mis sur la clarification et l’extension de la modélisation des œuvres, des événements et de leurs contributeurs.

  • Performed Music Ontology : Lien

Au-delà du choix de l’ontologie qui semble reposer essentiellement sur des considérations nationales, se pose la question de la mise à jour des données.

9. Outils du web de données

9.1 Répertoires d’ontologies

  • Linked Open Vocabularies (LOV), explorez l’onglet Vocabs (liste des ontologies, visualisation des liens entrant et sortants) et l’onglet Terms (liste de Classes et de propriétés) (700 ontologies, 29900 classes, 37700 propriétés en 2020), par l’Ontology Engineering Group de Madrid : Lien
  • BARTOC.org, Le répertoire d’ontologies de l’Université de Bâle : Lien
  • Ontology repositories au W3C : Lien
  • BioPortal, ontologies du domaine de la biologie et des biotechnologies : Lien
  • Open Metadata Registry : système pour auto-archivage des ontologies : Lien

9.2 Langages, éditeurs d’ontologies, gestionnaires de contenus

  • Omeka S User Manual , Docs > Resources > Vocabularies, un gestionnaire de contenu pour gérer un corpus à l’aide d’ontologies : Lien
  • Module Value Suggest (VIAF, Geonames) d’Omeka S : Lien
  • Langages dédiés au web de données : RDF, RDFS, OWL, SKOS, Notation3, Turtle (syntaxe), JSON-LD, SPARQL, …
  • Protégé, un éditeur d’ontologie : Lien
  • WebProtégé, une interface en ligne hébergée à Stanford : Lien

9.3 Visualiseurs

  • WebVOWL : Visualisez une ontologie au format OWL sur votre navigateur. Une ontologie peut être explorée à l’aide d’un simple navigateur : Lien, Exemple avec FOAF
  • LodLive : Visualisez graphiquement les liens et classes d’items du web de données. Explorer par exemple “Le corbeau” (1845) d’Edgar Allan Poe : Lien
  • Bienvenue aux sparna-labs ! : Le laboratoire de Thomas Francart : Lien

10. Conclusion

Deux sortes démarches semblent émerger du mouvement web de données dans les bibliothèques et archives. Les ontologies de domaine comme FOAF, DC ou BIBO peuvent être utilisées conjointement pour décrire aussi bien des documents publiés que des pièces d’archives (photo ancienne, correspondance, manuscrit). Utilisées par les grands organismes de la gestion des connaissances tels que les bibliothèques, Wikipedia (Wikidata, DBPedia) ou Google, les ontologies de haut niveau se montrent capables de décrire finement de vastes ensembles de notices, de données et de documents.

Ces deux approches ne sont pas forcément opposées mais répondent à des usages différents. Plusieurs ontologies de domaine permettent une description rapide et synthétique d’une varitété d’éléments grossièrement caractérisés. L’indexation par des non-professionnels s’avère possible. Les ontologies de haut niveau peuvent se montrer adaptées à la description professionnelle d’objets de types plus variés. Comment décrire de manière cohérente des choses qui existent en plusieurs états et multiples exemplaires ou bien au contraire complètement uniques ? Quels niveaux de précision donner pour capter l’information pertinente ? L’usage de plus en plus fréquent des formalismes du web sémantique fait que cet article aurait pu être intitulé “Des ontologies pour tous… et aussi pour les sciences humaines”.

  • Le sens du sens : les ontologies, ce n’est pas (que) de la philosophie ! , Chabot, 2017 : Lien
  • ModSci, Modern Science Ontology. Une ontologie des disciplines scientifiques : Lien
  • Ontology Alignment Evaluation Initiative: Six Years of Experience, Euzenat, 2011 : Lien
  • Ontology engineering : Lien
Ontologie Modern Science (ModSci) vue avec WebVOWL : Lien
Une distribution généalogique des sciences et des arts principaux. Encyclopédie de Diderot et D’Alembert, édition de 1751 : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire