Des ontologies pour les sciences humaines… et aussi pour les autres

Web de données illustré par un graphe

L’ontologie traite en philosophie de questions comme l’existence réelle ou supposée d’entités, leur regroupement et leur relation dans une hiérarchie, leur subdivision en relations mettant en évidence des similarités et des différences. Le traité des Catégories d’Aristote placé en introduction de son Organon inaugure la discipline.

Les publications en 1991 d’Ewald Lang (Stuttgart), David Powers (Erlangen), de même que la synthèse de Tom Gruber en 1993 (Stanford) marquent le renouveau du terme dans un cadre informatique. La question de la sémantique et des ontologies continue d’évoluer jusqu’à la fin des années 1990, parallèlement aux langages informatiques, aux méthodes de conception de bases de données relationnelles et aux systèmes de représentation de l’information comme SGML (1986) et XML (1999).

Le web sémantique et les ontologies deviennent populaires en 1999. Les présentations du web sémantique par Tim Berners Lee en 2002, puis du web de données contribuent à rendre le terme incontournable. Une ontologie informatique devient alors définie dans le cadre du web de données comme un “artefact déclaratif destiné au partage de connaissances entre logiciels”. Les applications envisagées concernent l’indexation fine et structurée des textes et objets numériques (tableau de données, image, vidéo, objet 3D).

Précisons quelque peu : une ontologie – encore appelée vocabulaire – désigne un texte dépourvu d’ambiguïté capable de structurer la description de toute document du web. Des documents relatifs à des personnes, organisations, évènements, artefacts, des choses de la nature et si nécessaire tous ces éléments rassemblés en un seul corpus voient leurs caractéristiques renseignées à l’aide d’une ou de plusieurs ontologies. Celles-ci peuvent en effet être assemblées de manière modulaire afin de couvrir un champ de description élargi.

Les intérêts de l’usage d’une ou de plusieurs ontologies s’avèrent multiples. 1/ Certains vocabulaires sont pris en considération par les moteurs de recherche et des pages ainsi indexées se retrouvent bien référencées. 2/ Tout ensemble de données peut être décrit de manière logique à l’aide d’ontologies publiques. L’usage d’ontologies populaires comme par exemple Wikidata rend possible l’interopérabilité des silos de documents et de données. 3/ Dès que nous remplissons les colonnes d’un tableau, nous créons sans le savoir une mini-ontologie, un peu comme Monsieur Jourdain fait de la prose en quelque sorte.

Quels sont les concepts de base d’une ontologie ? Dans une vocabulaire, des Classes éventuellement présentées sous la forme d’une hiérarchie permettent de typer des objets du plus général au plus précis. L’entité présente à la racine et la plus générale est nommée Thing ou bien Something. Parfois communes à un ensemble de classes, parfois spécifiques d’un type, des propriétés rendent possible la description des objets eux-mêmes et des relations entre objets de différentes natures. Les valeurs admises en renseignement des propriétés se trouvent précisées dans l’ontologie.

Ainsi par exemple, une Personne, un Groupe, une Organisation, un Document, un Message, etc constituent des Classes d’objets. Des propriétés telles que nom, description, identifiant, sujet, url décrivent judicieusement des objets de classes variées. Mais une propriété spécifique telle qu’isbn10 ne peut renseigner qu’un objet de la classe Livre. Une série unique de 10 chiffres est attendue en valeur de cette propriété. Un champ tel que “nom de famille” se montre spécifique de la classe Personne. Les ontologies reprennent de manière plus souple les concepts précédemment définis en XML sous le nom de schéma de métadonnées.

Pour résumer à l’aide d’une sorte d’équation, on a :

Ontologie (i) = Classes (ii) + propriétés (iii) + hiérarchie et valeur attendue (iv)

  • i/ ontologie ou vocabulaire ou graphe de connaissance
  • ii/ Classes, Types, Catégories de choses à décrire, souvent écrite avec la première lettre en majuscule
  • iii/ propriétés ou métadonnées, ou éléments, ou colonnes d’un tableau, ou prédicat, ou attributs, renseignements sur des choses d’une nature donnée, généralement en minuscule
  • iv/ règles telles que l’organisation possiblement hiérarchique des Classes et des propriétés, valeurs attendues en renseignement des propriétés, héritage des propriétés, contexte et exemples typiques d’usages

L’article décrit les notions de base nécessaires à la lecture d’une ontologie. Des ontologies dites de bas niveau très spécifiques d’un domaine donné se distinguent de celles de haut niveau très générales et assez volumineuses, voire multilingues. Certains vocabulaires sont ici explorés. Excellente visite de ces liens, judicieux choix de licence pour vos logiciels et vos corpus, et bonnes pratiques ontologiques !

  1. The LILOG ontology from a linguistic point of view, 1991, Ewald Lang : Lien
  2. Goals, Issues and Directions in Machine Learning of Natural Language and Ontology, 1991, David Martin Ward Powers : Lien
  3. The Role of Common Ontology in Achieving Sharable, Reusable Knowledge Bases, 1991, Thomas Gruber : Lien
  4. Toward Principles for the Design of Ontologies Used for Knowledge Sharing, 1993, Thomas Gruber : Lien
  5. Enabling Standards & Technologies – Layer Cake, 2002, Tim Berners Lee : Lien
  6. The Semantic Web Revisited, 2006, Shadbolt, Nigel, Berners-Lee, Tim and Hall, Wendy : Lien

Sommaire

  1. De la notation à la politique documentaire
    • 1.1 Ontologies généralistes ou spécialisées
    • 1.2 Propriété non liée, propriété liée interne, ou propriété liée externe ?
    • 1.3 Politique documentaire
  2. Vocabulaires du SEO
    • 2.1 Open Graph (og)
    • 2.2 Twitter Cards
    • 2.3 Schema.org (schema)
    • 2.4 Dublin Core (dc, dcterms)
  3. Ontologies des bibliothèques
    • 3.1 The Bibliographic Ontology (bibo)
    • 3.2 FRBR, FRBR-aligned Bibliographic Ontology (FaBiO), FRBRoo
    • 3.3 The Library Reference Model (LRM) et Ressource Description & Acces (RDA)
    • 3.4 RDA-FR et la transition bibliographique (2015 – 2022)
    • 3.5 Évolution des SGB
    • 3.6 D’autres ontologies pour les bibliothèques et l’édition
    • 3.7 Ressources bibliographiques au format web de donnée
  4. Métiers des archives, des musées, de l’archéologie
    • 4.1 CIDOC-CRM
    • 4.2 Autres outils des archives et de l’histoire
  5. Métiers de la santé
  6. Personnes, organisations et relations sociales
    • 6.1 Friend of a friend (foaf)
    • 6.2 vCards (vcard)
    • 6.3 Organization (org)
    • 6.4 Relationship (rel)
    • 6.5 Event (event)
    • 6.6 Semantically-Interlinked Online Communities (sioc)
    • 6.7 A vocabulary for biographical information (bio)
  7. Encyclopédies et bases de connaissance ouvertes
  8. Étude de cas : la musique
  9. Outils du web de données
  10. Conclusion

1. De la notation à la politique documentaire

Des notations distinctes, mais conceptuellement équivalentes et plus ou moins adaptées à la lecture par l’homme ou l’ordinateur permettent l’écriture d’ontologies. On peut ainsi distinguer le Graphe orienté, Web Ontology Language (OWL), Notation3 (N3), Turtle, XML. Un autre langage Simple Knowledge Organization System (SKOS) est dédié à la notation des thesaurus, plans de classements, listes de sujet et taxonomies. OWL et SKOS s’appuient eux-mêmes sur des formalismes Resource Description Framework (RDF) et RDF Schema (RDFS) et permettent la notation des ontologies et items. À l’autre bout de la chaîne, les trois langages Microdata, RDFa et JSON-LD sont dédiés à l’exposition des métadonnées dans l’en-tête et dans le corps d’une page HTML du web en vue de partager la sémantique avec les moteurs et moissonneurs.

Pour rappel, RDF constitue une syntaxe susceptible de décrire toute sémantique compréhensible par une machine à l’aide d’un triplet constitué d’un sujet, d’un prédicat et d’un objet. Un Triplestore est une base de donnée orientée graphe dédiée spécifiquement au stockage et à l’interrogation de multiples triplets RDF. Des contenus structurés à l’aide d’ontologies et entrés dans le système peuvent alors être interrogés simultanément à l’aide du langage Sparql. Au niveau informatique, les ontologies introduisent une structuration des données comparable et équivalente à celle mise en place lors de l’élaboration de bases de données relationnelles.

Des applications particulières rendent possible le transit d’une base de donnée relationnelle à une base du web sémantique. Ainsi, D2RQ permet la conversion de données relationnelles en données sémantiques et une interrogation via un triple store devient possible. Un autre logiciel nommé Ontop assure les mêmes fonctionnalités. Le logiciel SPARNatural est également susceptible d’assister l’utilisateur dans la formulation de requêtes Sparql. Les ontologies sont conçues fondamentalement pour être aisément réutilisables et rendre possible le lancement de requêtes fédérées sur des silos de données distants. Elles se trouvent fréquemment publiées et maintenues sous licence ouverte.

  • Resource Description Framework; Model and Syntax Specification : Lien
  • D2RQ : Accessing Relational Databases as Virtual RDF Graphs : Lien
  • Ontop : traduit des requêtes SPARQL exprimées sur des graphes de connaissance en requêtes SQL exécutées sur des bases relationnelles. Il s’appuie sur le langage de mapping R2RML du W3C pour tirer partie d’ontologies légères : Lien
  • SPARNAtural : écrire des requêtes SPARQL, tout naturellement : Lien

1.1 Ontologies généralistes ou spécialisées ?

Les ontologies sont écrites en anglais généralement; certaines sont multilingues. Les noms des Classes s’écrivent généralement avec la première lettre en majuscule, les propriétés ont leur première lettre en minuscule. Petite subtilité en ce qui concerne les classes de certaines ontologies comme Dublin Core, Open Graph ou Wikidata, celles-ci se trouvent définies en valeur d’un propriété particulière nommée “type“. Des groupes d’ontologies se trouven conçues pour fonctionner de manière complémentaire. Un exemple typique est Dublin Core utilisé pour décrire une page du web, complété par Friends of a friend adapté à la description d’une personne ou d’une organisation.

Des répertoires tels que Linked Open Vocabularies (LOV) permettent d’explorer plus de 700 ontologies. Les relations entrantes et sortantes, de même que les dates de création sont visualisés à l’aide de l’interface. De nombreux liens entrants sont à privilégier si l’on souhaite utiliser une ontologie populaire. Dans le domaine de la biologie, un autre portail BioPortal référence avec plus de 800 ontologies dont les domaines concernent la physique, le droit, les sciences en général.

A gauche le graphe des ontologies qui se servent de Bibo;
à droite, celles utilisées par Bibo, une ontologie du domaine de la bibliographie : Lien

1.2 Propriété non liée, propriété liée interne, ou propriété liée externe ?

Comment renseigner une propriété ? Cela dépend à la fois de sa nature et du niveau de précision souhaité. Plusieurs possibilités existent en effet pour renseigner les propriétés, et ainsi indexer des objets :

  1. Ne pas lier. Une métadonnée fournit un renseignement textuel répondant à des règles simples. Un champs date peut par exemple être noté avec une grande expressivité à l’aide de conventions : “1905” pour spécifier une année, “1905-12-09” pour plus de détails, “1905/1912” pour exprimer une durée, tout en maintenant la possibilité d’un tri alphabétique par valeur du champs, comme le préconisent EDTF ou la norme ISO 8601.
  2. Établir des liens internes. Un item d’un corpus peut être lié à un autre item du même corpus via un URI interne, indiquant une relation dont la nature se trouve précisée. Ainsi, un article publié peut être lié à son auteur dont une biographie sera présentée; il peut être lié à une revue ou bien à une traduction. Autre exemple : Un colloque peut être détaillé avec des liens vers les conférences particulières données par plusieurs conférenciers avec la propriété hasPart. L’interface de consultation du corpus permet la navigation aisée entre documents liés, possiblement de classes différentes.
  3. Établir des liens externes. Si l’on dispose dans un domaine quelconque d’un référentiel incontournable capable de fournir des URI de qualité (BNF, Gallica, IdRef, VIAF, GeoNames, etc…), il est possible d’identifier un item en le liant ainsi de manière externe. Une personne, un organisme, un document ou un lieu géographique peuvent être identifiés de manière non équivoque. Des bases de connaissance comme Wikidata ou DBPedia référencent de tels liens.
“Corpus” par OWA, Acoustic ceiling system : Lien

1.3 Les usages

Trois applications principales peuvent être distinguées.

1/ Optimisation du référencement : Les ontologies reconnues de google sont les suivantes : Open Graph, Twitter cards, Dublin Core et schema. Des plugins de WordPress ou Drupal en facilitent l’usage. Du côté des promoteurs de ces ontologies (Facebook, Twitter, Dublin Core Metadata Initiative, Google et Microsoft), il convient d’assurer aux utilisateurs une stabilité dans la définition et l’organisation des classes et propriétés. Alors que les trois premières ontologies sont d’usage simple, schema développé par Google comprend plusieurs centaines de classes et de propriétés.

2/ Bibliothèques, archives, musées et encyclopédies : Les bibliothèques, archives et encyclopédies dont la visibilité est nationale ou internationale sont des adeptes des ontologies de haut niveau. Des institutions gèrent de manière interne leurs catalogues aux formats MARC (MARC21, INTERMARC, UNIMARC), EAD et autres. Ces organismes souhaitent valoriser leurs fonds sous forme de métadonnées et de documents en accès libre. Des portails de données ouvertes sont proposés au public. Du côte des bases de connaissances constitutives ou dérivées de Wikipédia, DBPedia et WikiData s’avèrent incontournables.

3/ Recherche : Les concepts véhiculés par le web de données sont venus renouveler les pratiques documentaires et au-delà la gestion des données et métadonnées issues de la recherche. Des ontologies sont mises au point dans le but de rendre compatible des silos de données créés par des organismes différents. Un langage commun est recherché en vue de rendre possible des interrogations croisées, de faciliter l’interopérabilité et l’échange de données. Les ontologies opérationnelles, faciles d’utilisation sont à rechercher. L’ontologie ModSci, Modern Science Ontology se montre-t-elle adaptée ?

Au final, c’est souvent des choix populaires, l’usage des collègues et pairs, voire des choix faits au niveau national ou international qui guident les pratiques. Le point important reste l’expérience plaisante fournie, la richesses du fonds, car l’ontologie d’une application réussie se doit de rester au final dénuée d’ambiguïté, quasiment invisible du public.

Alignement de deux ontologies nommées o et o’ : Lien

2. Vocabulaires du SEO

Le référencement de vos données sur le web, le “Search Engine Optimization” ou SEO dépend des choix dictés par les moteurs de recherche. Ceux-ci prennent en compte un faible nombre d’ontologies qu’il convient de connaitre pour être reconnu.

2.1 Open Graph (og)

Le protocole Open Graph est créé originellement par Facebook mais a été adopté par plusieurs plateformes de réseaux sociaux parmi lesquels Pinterest, LinkedIn, Twitter. Un affichage standard est généré lorsqu’un lien vers une page est référencé dans Facebook. Son usage en fait l’un des outils du SEO (Search Engine Optimization) car pris en compte par les robots d’indexation de Facebook et depuis 2010 de Google. Les métadonnées og se trouvent dans la balise <meta property> d’HTML. La valeur d’og:type spécifie la classe.

7 classes possibles en valeur d’og:type : article, book, image, music, profile, video, website. On remarque au passage que les noms de classe sont notés en minuscule, à l’inverse des conventions classiques.

4 propriétés obligatoires : og:type, og:title, og:image, og:url

7 propriétés optionnelles : og:audio, og:description, og:determiner, og:locale, og:locale:alternate, og:site_name, og:video

Des propriétés spécifiques viennent décrire les objets des classes article, book, profile, music et video. Renseignements relatifs à la bibliographie : article:published_time, article:modified_time, article:expiration_time, article:author, article:section, article:tag, book:author, book:isbn, book:release_date, book:tag. Métadonnées sur les personnes : profile:first_name, profile:last_name, profile:username, profile:gender. Une vingtaine de classes et propriétés concernent la musique.

  • The Open Graph protocol (og) : Lien
  • Un guide de partage pour les administrateurs de sites, facebook for developers : Lien
  • Open Graph Check : Lien

2.2 Twitter Cards

Le protocole cartes Twitter (Twitter Cards) spécifie un ensemble de propriétés des balises <meta name> qui rendent possible le contrôle de l’apparence d’un site lorsque son URL est partagée sur Twitter, et au-delà TumblR ou Blogger. L’affichage sur smartphone est particulièrement considéré. Quatre formats de cartes sont possibles (4 classes spécifiées par la valeur prise par twitter:card) : 1/ La carte Résumé (summary), 2/ La carte Résumé avec grande image (summary_large_image), 3/ La carte Visionneuse de vidéo (player), 4/ La carte Application (app) pour affichage sur smartphone. Google reconnait le format depuis 2012 et des interactions avec Open Graph sont formalisées.

  • Les Cartes Twitter, twitter developer : Lien, Lien
  • Plugin Cartes Twitter pour WordPress : Lien

2.3 Schema.org (schema)

Google, Bing (Microsoft), Yahoo, Yandex spécifient schema en 2011 et lancent depuis de régulières mises à jour. L’objectif est pour les moteurs de renseigner des bases de connaissance à partir des pages parcourues par les robots d’indexation. Les éditeurs de sites web attendent en retour l’optimisation de leur référencement, la production de snippet riches qui mettent en valeur les contenus. La version 7.0 de schema sort le 10 mars 2020. La hiérarchie des classes s’est étendue au fil des versions. Les classes spécifiques héritent des propriétés des classes générales proches de la racine. Au-delà des préoccupations de marketing, schema peut décrire de manière aussi précise que souhaité une immense variété d’objets.

Schema s’avère assez complet et dispose d’une architecture solide. D’autres ontologies comme “The Product Types Ontology” ou “GoodRelations” étendent ses champs d’applications. Deux articles de ce blog concernent ce vocabulaire : Lien

2.4 Dublin Core (dc, dcterms)

Crée en 1995 à Dublin (Ohio) par le DCMI (Dublin Core Metadata Initiative) et antérieure à la notion de web de données, c’est l’ontologie la plus ancienne et la plus utilisée en première approche pour décrire un document bibliographique sur le web. Dublin Core peut décrire grossièrement de nombreuses choses, mais s’avère au final moins pertinent qu’Open Graph pour indexer des pages relatives à des données musicales, vidéos, ou personnelles (profile).

a/ Classes des objets

Les classes sont spécifiées dans la propriété Dublin Core type. Les valeurs recommandées pour type sont listées dans le “DCMI Type Vocabulary”. Un ou plusieurs types peuvent être spécifiés simultanément, par exemple Text (contrôlé dans DCMI Type Vocabulary) et aussi Article (non contrôlé), exemples. Les 12 valeurs de DCMI Type :

Collection, Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text

b/ Propriétés simples et affinées

15 propriétés simples sont définies auxquelles sont ajoutées ici entre parenthèses des propriétés affinées – sortes de sous-propriété qui apportent une précision supplémentaire.

  1. contributor
  2. coverage > (spatial – pays en ISO 3166-1, temporal)
  3. creator
  4. date > (available, created, dateAccepted, dateCopyrighted, dateSubmitted, issued, modified, valid)
  5. description > (abstract, tableOfContents)
  6. format > (extent, medium)
  7. identifier > (bibliographicCitation)
  8. language (ISO 639-2, 639-3, RFC1766)
  9. publisher
  10. relation > (conformsTo, hasFormat / isFormatOf, hasPart / isPartOf, hasVersion / isVersionOf, isReferencedBy / references, isReplacedBy / replaces, isRequiredBy / requires)
  11. rights (accessRights, license)
  12. source
  13. subject
  14. title > (alternative)
  15. type
  • DCMI Metadata Terms, 2020 : Lien
  • Dublin Core™ User Guide > Publishing Metadata : Lien
  • Le plugin OpenLink Structured Data Sniffer disponible sous Chrome et Firefox permet d’afficher les métadonnées insérées dans une page web.
  • Le site web Structured Data Linter aide les webmestres et les développeurs web à verifier la conformité des données structurées de leurs pages HTML. Publié par structured-data.org, la doublure (linter) parse les formats microdata, JSON-LD et RDFa. Description d’un personne imaginaire rendue par Linter : Lien

3. Ontologies des bibliothèques

Les bibliothèques ont historiquement initié des réflexions sur l’organisation des connaissances et leur diffusion raisonnée au grand public. Plusieurs virages furent successivement pris parmi lesquels l’informatisation des catalogues et des prêts, l’arrivée des documents numériques, l’introduction du web de données. Comment décrire un livre ? Comment ranger dans des rayons livres, disques et DVD ? Comment organiser les fichiers et métadonnées dans une bibliothèque numérique ? Différents niveaux de conceptualisation sont possibles. Quelques unes des ontologies dédiées à la description bibliographique sont ici évoquées.

3.1 The Bibliographic Ontology (bibo)

Créée en 2009, bibo est une ontologie dite de bas niveau prévue pour un usage conjoint avec Friends Of A Friend (foaf) et Dublin Core (dcterms). C’est essentiellement l’aspect physique de l’item qui est pris en considération. La hiérarchie des classes est ici visualisée sous forme d’une liste ordonnée. Alors que les listes à puce indiquent la hiérarchie des classes avec première lettre majuscule, les propriétés sont ici entre parenthèses et le signe supérieur “>” montre la hiérarchie des propriétés :

Thing (abstract, identifier > (asin, coden, doi, eanucc13, eissn, gtin14, handle, isbn, issn, Iccn, oclcnum, pmid, sici, upc, uri))

Bibo avec Protégé : Lien

3.2 FRBR, FRBR-aligned Bibliographic Ontology (FaBiO), FRBRoo

Le modèle conceptuel de données FRBR (Functionnal Requirements for Bibliographic Records) est publié par l’IFLA (International Federation of Library Association) en 1997. Il modélise les théories et pratiques du catalogage en vigueur dans les bibliothèques universitaires, régionales et nationales. La description du processus créatif complet depuis la création d’une œuvre par son auteur jusqu’à l’obtention d’un exemplaire par un propriétaire est prise en considération. Des livres, revues, journaux, films et documentaires, pièces musicales, blogs et pages du web, ensembles de données, codes et logiciels, vocabulaires et dictionnaires, décisions légales et arrêts rendus, archives gouvernementales, rapports techniques et commerciaux voire plus sont possiblement décrits par le modèle théorique.

Une hiérarchie de quatre entités constitue le cœur de FRBR. L’entité Work traduite en français par “Œuvre” se trouve à la racine. Bien qu’abstrait et non matériel, Work rend possible la création d’un lien entre une œuvre originale nommée et plusieurs expressions dérivées possibles. Expression correspond à la réalisation d’une œuvre. Les aspects intellectuels et juridiques sont pris en considération à ce niveau. Des variations importantes et distinctes d’une simple correction correspondent à une nouvelle expression de la même œuvre – une nouvelle édition par exemple. Les aspects physiques sont décrits dans l’entité Manifestation. Une manifestation unique réunit tous les objets physiques qui présentent les mêmes caractéristiques physiques. Une matérialisation distincte correspond à une autre manifestation. Et enfin Item rassemble les propriétés en relation avec un exemplaire particulier. L’identifiant local ou le lieu de rangement habituel sont renseignés à ce niveau. Des variations entre items peuvent correspondre à un état physique particulier, à l’ajout d’une dédicace par exemple. L’action d’agents individuels ou collectifs sous-tend l’ensemble du processus et l’acronyme WEMI est généralement donné pour mémoriser aisément la hiérarchie des entités.

Relations entre classes avec FaBiO et étapes du processus éditorial

FaBiO (the FRBR-aligned Bibliographic Ontology) est une ontologie dérivée du modèle FRBR élaborée à partir de 2012 et jusqu’en 2019. Elle fait partie de la suite SPAR (Semantic Publishing and Referencing Ontologies), un groupe d’ontologies dédiées à la description bibliographique. FaBiO est prévu pour fonctionner à l’aide d’autres ontologies telles que Core FRBR, PrisM, dcterms, foaf. Les classes sont notées en minuscule suivies de C en exposant. L’exposant est ici omis et le minuscule conservé. Certaines classes admettent plusieurs classes parentes et sont marquées d’un signe + car présentes en double :

Des propriétés associées aux objets WEMI ou aux données sont distinguées.

Propriétés associées aux objets : has creator, has discipline / is discipline of, has embodiment / is embodiment of, has exemplar / is exemplar of, has format, has language, has license, has manifestation, has part / is part of, has place of publication, has portrayal, has primary subject term, has publisher, has realization / is realization of, has representation / is representation of, has rights, has subject term, is in scheme, is manifestation of, is portrayal of, is scheme of, is stored on / stores

Propriétés associées aux données : abstract, alternate title, date last updated, has acceptance date, has access date, has ArXiv identifier, has character count, has CODEN, has copyright date, has copyright year, has correction date, has creation date, has date, has date collected, has date received, has deadline, has decision date, has deposit date, has DOI, has edition, has eISSN, has electronic article identifier, has embargo date, has embargo period, has ending page, has handle, has identifier, has ISBN, has ISSN, has ISSN-L, has issue date, has issue identifier, has keyword, has modification date, has National Library of Medicine journal identifier, has National Library of Medicine journal title abbreviation, has number, has page count, has page range, has patent number, has PII, has preprint dissemination date, has publication date, has publication year, has PubMed Central identifier, has PubMed identifier, has request date, has retraction date, has season, has short title, has SICI, has standard number, has starting page, has submission date, has subtitle, has title, has translated subtitle, has translated title, has URL, has validity date, has version identifier, has volume count, has volume identifier, has word count, section, uses calendar

Les supports possibles, annotations et dictionnaires de référence ne sont pas oubliés. Des exemples complètent les spécifications SPAR. La relative complexité de FaBiO fait que son usage est plutôt réservé à des équipes quasi-professionnelles dans le domaine du catalogage en bibliothèque. Dérivée des modèles conceptuels FRBR et CIDOC-CRM, l’ontologie FRBRoo voit le jour en 2008. Une adaptation est mise au point et maintenue par l’Université d’Erlangen. Quelques liens :

  • FRBR : Travaux de l’IFLA, 1992, 1998, 2009 : Lien
  • FaBiO, résumé et exemples : Lien
  • FaBiO, publié sur github Lien1, Lien2, bibo.owl
  • FaBiO, the FRBR-aligned Bibliographic Ontology, 2019 : Lien
  • FaBiO and CiTO: ontologies for describing bibliographic resources and citations, Journal of Web Semantics, 17: 33-43, Peroni, S., Shotton, D. (2012) : Lien
  • Expression of Core FRBR Concepts in RDF, 2005 : Lien
  • FRBRoo : intégration de FRBR dans le CIDOC-CRM, 2008. Les classes sont préfixées E et F (F1 Work), les propriétés P et R (R3 is realised in) : Documentation Erlangen, Lien
  • SPAR Ontologies : Lien
  • Exemples d’usage des ontologies SPAR : Lien
Catalogue, chercher le littéraire, du papier au numérique, F. Glorieux, 2017 : Lien

3.3 The Library Reference Model (LRM), Ressource Description & Acces (RDA)

Un modèle entité association dédié à la description des notices d’autorités Functional Requirements for Authority Data (FRAD) est émis par l’IFLA en 2009. Les données d’autorité représentent les points d’accès contrôlés dont se servent les institutions pour colocaliser les oeuvres d’une personne, d’une famille ou d’une collectivité particulières ou les différentes éditions d’un titre. D’autres travaux de modélisation aboutissent en 2010 avec la publication de Functional Requirements for Subject Authority Data (FRSAD). Les notices d’autorité sujet – mots-clés, lieux et époques nommées. FRBR, FRAD et FRSAD se trouvent intégrés dans Library Reference Model (LRM) publié en 2017. Les entités Agent, Time-span, Place, Nomen et Res se trouvent introduits et viennent compléter WEMI.

En parallèle des travaux conceptuels de l’IFLA, le RDA Steering Comitee élabore de 2010 à 2013 l’ontologie Ressource Description & Acces (RDA). Le FRBR, puis le LRM “trouvent une expression” dans RDA. Une ontologie accompagnée d’un guide de catalogage en anglais deviennent accessibles. Le CIDOC-CRM s’empare également du LRM en 2020 pour produire LRMoo, une ontologie dérivée également de FRBRoo.

De nombreuses bibliothèques nationales dont la Bibliothèque du Congrès puis la British Library, la Bibliothèque et Archives du Canada, la Bibliothèque nationale australienne, la Bibliothèque nationale allemande, la Bibliothèque nationale d’Espagne, la Bibliothèque nationale de Lettonie, la Bibliothèque nationale des Pays-Bas adoptent progressivement RDA.

  • Fonctionnalités requises des données d’autorité (FRAD) : Lien
  • Functional Requirements for Subject Authority Data (FRSAD) : Lien
  • Modèle de référence IFLA pour les bibliothèques : Lien
  • LRM (Library Reference Model), IFLA, 2017 : Lien
  • Ressources : description et accès : Lien
  • RDA Registry : Le Registre RDA contient des ontologies qui représentent les entités RDA, les propriétés et vocabulaires contrôlés spécifiques des propriétés exprimés en Resource Description Framework (RDF) : Lien
  • Ressources : description et accès : Lien
  • LRMoo (formerly FRBRoo) object-oriented definition and mapping from IFLA LRM : Lien

3.4 La transition bibliographique RDA-FR (2015/2022)

La création de data.bnf.fr en 2011 constitue une étape majeure en direction du web de données, de l’ouverture au public de données bibliographiques enfouies dans des systèmes inaccessibles et incompréhensibles du grand public. D’autres travaux plus théoriques se poursuivent pendant ce temps en France.

La lecture de RDA par les spécialistes des métadonnées de l’Agence bibliographique de l’enseignement supérieur (Abes) et de la Bibliothèque nationale de France (BnF) se poursuit de 2010 à 2014. L’Abes et la BnF publient un communiqué commun en 2014 officialisant la position française : se rapprocher le plus possible du code RDA tout en conservant l’analyse catalographique à la française. Le principe justifiant cette position est celui de la non régression. Il a a nécessité de ne pas perdre les informations contenues dans les notices d’ancienne génération. La BnF travaille en INTERMARC. Elle fait évoluer son format vers INTERMARC ng pour intégrer progressivement les apports successifs de FRBR et LRM.

Le projet Transition bibliographique est lancé en 2015. Il a pour objectif de faire évoluer progressivement les règles de catalogage vers le modèle national RDA-FR. Trois groupes de travail sont constitués. Le Groupe de normalisation est chargé de rédiger le futur code de catalogage. Il prépare également des demandes d’évolution de RDA dans le cadre du groupe RDA EURIG. Le Groupe Formation élabore des supports pédagogiques et monte des formations à destination des bibliothécaires. Le Groupe Systèmes & Données travaille sur les aspects plus spécifiquement informatiques du projet.

  • Transition bibliographique, des catalogues vers le web de données : Lien, (Normalisation, Formation, Systèmes & Données)
  • European RDA Interest Group : Lien
  • À défaut d’enterrement : les défis et les promesses de l’INTERMARC nouvelle génération. Peyrard, 2018 : Lien
  • Appliquer FRBRoo à la Bibliothèque nationale de France ? M. Roche, 2019 : Lien
  • Seconde expérimentation Sudoc FRBR / LRM (octobre 2019 – …), ABES : Lien

3.5 Évolution du SGB

La révolution que constitue pour les bibliothèques l’introduction de FRBR et du web de données, de même que le développement du réseau Internet ont entrainé une évolution rapide non seulement de la structure des métadonnées mais encore des Systèmes de Gestion de Bibliothèque eux-mêmes. Ceux-ci sont développés par des sociétés de services spécialisées et déployées dans toute bibliothèques. Les fonds subissent une “FRBRisation” et le mode Saas Software As A Service devient proposé en plus des traditionnels logiciels. Des SGB deviennent publiés en libre ce qui ne signifie pas gratuit, d’autres deviennent mutualisés et accessibles uniquement via Internet.

  • SGB, SGBm… les nouvelles dynamiques. Outils et acteurs dans un contexte en mouvement, Ar(abes)que, 2018 : Lien

3.6 D’autres ontologies pour les bibliothèques, l’édition et la recherche

  • BIBFRAME (bf), 2014 : L’ontologie de la Bibliothèque du Congrès, version au format web de données de MARC21, le format de catalogage bien connu des bibliothèques : Lien
  • GND Ontology (Deutsche National Biblothek) : Une ontologie utilisée de manière internationale pour décrire les autorités personne, organisme, sujet et titre : Lien
  • CiTO, the Citation Typing Ontology, un vocabulaire SPAR dédié aux citations bibliographiques et à l’étude de leur sémantique : Lien
  • PRISM, The Publishing Requirements for Industry Standard, jeu de métadonnées défini à plat en XML et fréquemment utilisé (data.BnF) en complément de Dublin Core : Lien
  • MADS (Metadata Authority Description Schema in RDF) : une ontologie produite par la Bibliothèque du Congrès pour décrire simplement des autorités (auteurs de textes et affiliations, personnes et organismes) : Lien
  • Nature Publishing Group ontology (npg) 2015, l’ontologie de SciGraph, le portail de données de Springer Nature : Lien1, Lien2
  • ModSci, Modern Science Ontology 2019, powers two projects for semantically representing scholarly information: Open Research Knowledge Graph 1 and OpenResearch.org

3.7 Ressources bibliographiques au format web de donnée

  • ABES (Agence Bibliographique de l’Enseignement Supérieur), Data IdRef, Autorités et littérature académique (personnes, organismes, articles, livres, thèses) : Lien, sparql end-point : Lien, https://data.idref.fr/endpoint.html
  • BnF (littérature) : data.bnf.fr, Lien sparql end-point, https://data.bnf.fr/opendata
  • Hal (littérature scientifique française), Sparql end-point : Lien
  • Persée (littérature académique en sciences humaines), sparql end-point : Lien, Sparklis, interrogation d’un Sparql endpoint en langage naturel : Lien
  • Isidore (contenus de corpus de sciences humaines), sparql end-point : Lien
  • Ontologie ISTEX, data.istex.fr (littérature scientifique)
  • Biblissima : Lien, (littérature médiévale)
  • VIAF (personnes et organismes, autorités) : Lien
  • searchFast (notices bibliographiques, autorités) : Lien
  • Isidore, Huma-Num : Lien

4. Métiers des archives, des musées, de l’archéologie, de l’art, de l’histoire

Les archives, musées et le domaine de l’archéologie se distinguent expressément de la bibliothèque par le fait que les artéfacts et oeuvres conservées n’existent pas en plusieurs exemplaires. La publication de CIDOC CRM en 1999 constitue une étape qui a grandement influencé l’évolution de FRBR vu précédement. Les archives des administrations locales, régionales et nationales disposent de modèles propres en cours de développement et rédigés par les archives nationales.

4.1 CIDOC-CRM

Le Modèle Conceptuel de Référence du CIDOC (CIDOC CRM) émerge en 1994 des travaux du Groupe de Documentation sur les Standards CIDOC du Comité International de la Documentation de l’International Council of Museums. A partir de 1996, l’approche du groupe s’oriente vers les méthodes orientées objet pour aboutir à la première édition du CIDOC Conceptual Reference Model (CRM) en 1999. Le processus de standardisation débute en 2000 et la publication devient norme ISO 21127 en 2006. Le vocabulaire est décliné par l’Université d’Erlangen en une version OWL dénommée Erlangen CRM. Cette ontologie de haut niveau entend non sans controverse être capable de décrire tout objet culturel.

La version courante Erlangen CRM est ici évoquée. Les classes sont au nombre de 85 et il y a 283 propriétés. La syntaxe mèle identifiant et texte en anglais. Les propriétés et exemples de valeurs de chaque classe sont décrites dans la documentation. Les propriétés sont de la forme P suivi d’un chiffre comme par exemple P72 has language (is language of) ou bien P102 has title (is title of). On a sous E1 CRM Entity la hiérarchie des classes :

Plusieurs éléments remarquables apparaissent à la lecture du modèle conceptuel doublé d’une ontologie. Quelques classes comme E21 Person, E34 Inscription ou E35 Title de même que des portions de hiérarchies comme E73 Information Object et E90 Symbolic Object admettent plusieurs classes parentes et se retrouvent ici dupliquées et marquées du signe “+” dans la hiérarchie.

La classe Thing (E70 Thing) ne se trouve pas à la racine de l’arborescence mais à l’intérieur de celle-ci. Des notions comme les événements (E5 Event) ou les acteurs (E39 Actor) sont décrites indépendamment de Thing. Les organisations sont vues comme des sortes de groupes (E40 Legal Body). La classe (E55 Type) de E70 Thing correspond à la possibilité d’étendre CIDOC CRM à des ontologies et thesauri spécifiques de domaines. CIDOC CRM peut servir de vocabulaire d’alignement comme le propose par exemple l’interface OntoME du LARHA. Des alignements et collaborations concernent plusieurs domaines parmi lesquels FRBRoo, PRESSoo ou CRMsoc pour la modélisation des phénomènes sociaux peuvent être cités. La complexité de cette ontologie fait que son usage reste réservé aux personnes ayant suivi une formation. Documentation, sites et outils :

  • CIDOC-CRM : Le modèle conceptuel de référence pour les objets patrimoniaux des musées et de l’archéologie : Lien;
  • CIDOC-CRM : Modèles compatibles et collaborations : Lien
  • CIDOC-CRM : FRBRoo / LRMoo : Lien
  • Hiérarchie des classes CIDOC CRM par Sparna Labs : Lien
  • Tutoriel CIDOC-CRM Sparql sur les données du British Museum à collection.britishmuseum.org, Thomas Francart, 2018 : Lien
  • Erlangen CRM : The Erlangen CRM / OWL is an interpretation of the CIDOC CRM in a logical framework attempting to be as close as possible to the text of the specification : Lien
  • OntoME (Ontology Management Environment, Larhra). Un environnement pour aligner les ontologies des domaines de l’histoire, la géographie, les bibliothèques, les archives et autres données culturelles, notamment sur CIDOC CRM : Lien

4.2 Autres ontologies et outils des archives et de l’histoire

  • Records in Context (RIC) (archives). Projet de nouvelle norme de description archivistique se basant sur un modèle conceptuel de celle-ci, publiée et mise en consultation en 2016 par le Conseil international des archives : Lien, Matterhorn tools : Lien, à l’ICA, version 0.1 (archives) : Lien, Vidéo, 18:23 : Lien
  • RiC-CM, RiC-O : les Archives se dotent de leur modèle conceptuel (Records in Contexts), Thomas Francart, 2020 : Lien
  • Records in Contexts Ontology (archives), Pastor-Sánchez, 2017 : Lien
  • PACTOLS, vocabulaires de l’archéologie : Lien
  • Symogih.org (Larhra, histoire), ontologie alignée sur Cidoc CRM : Connaissance > (Biographie, Représentation spatiale de l’information, Types d’information génériques, Vie des institutions, Vie économique, Vie intellectuelle, Vie religieuse, Vie sociale) : Lien
  • PREMIS : L’ontologie de la bibliothèque du Congrès dédiée à la préservation des objets numériques : Lien
  • PeriodO : Lien (périodes historiques)
  • OpenArchaeo : Lien
  • Art & Architecture Thesaurus, Getty as LOD (musées) : Lien, Lien
  • Vocabulaires du Getty Research Institute (utilisés par la Bibliothèque du Congrès) : Lien
  • La plateforme POP (Plateforme Ouverte du Patrimoine) regroupe les contenus numériques du patrimoine français afin de les rendre accessibles et consultables au plus grand nombre : Lien

5. Métiers de la santé

Phast poursuit son action de diffusion de SNOMED CT en France, 2017 : Lien
  • BioPortal : the world’s most comprehensive repository of biomedical ontologies : Lien
  • The OBO Foundry, répertoire des ontologies de différents domaines de la biologie et de la médecine : Lien
  • SNOMED Clinical Terms, ensemble organisé de plus de 300 000 concepts à disposition des acteurs de santé : Lien
  • NCI Thesaurus couvre le domaine du cancer : Lien
  • Unified Medical Language System, NLM : Lien1, Lien2
  • GENEONTOLOGY; le consortium GO un modèle informatique des systèmes biologiques du niveau moléculaire au niveau organisme entier de plusieurs espèces : Lien
  • The CWRC Illness and Injury Ontology : Lien
  • BIO2RDF, Linked Data for the Life Sciences : Lien1, Lien2
  • Healthcare metadata – DICOM ontology, (Digital Imaging and Communications in Medicine) : Lien

6. Personnes, organisations et relations sociales

6.1 Friend of a friend (foaf)

Créée au milieu des années 2000, FOAF a progressivement évolué et constitue l’une des ontologie les plus largement utilisée de nos jours en même temps que vCards pour décrire les individus et les organisations. Une hiérarchie de classe est proposée, accompagnée de propriétés spécifiques de la classe :

6.2 vCards (vcard)

Format de fichier pour l’échange de cartes de visites électroniques créé en 1998 par l’IETF pour l’échange d’informations personnelles et professionnelles par eMail, MMS, messagerie instantanés ou QR code. Défini comme une ontologie par le W3C en 2014 : Lien

Hiérarchie des classes

Liste des propriétés

address, agent, email, geo, has additional name, has address, has calendar busy, has calendar link, has calendar request, has category, has country name, has email, has family name, has formatted name, has gender, has geo, has given name, has honorific prefix, has honorific suffix, has key, has language, has locality, has logo, has member, has messaging, has name, has nickname, has note, has organization name, has organization unit name, has photo, has postal code, has region, has related, has role, has sound, has source, has street address, has telephone, has title, has uid, has url, has value, key, logo, name, organization, photo, sound, telephone, url

6.3 Organization (org)

Fonctionnement d’une organisation, gouvernementale ou non, dont des agents sont répartis sur plusieurs sites, ont des postes et jouent des rôles. Dépend de l’ontologie PROV-O, de foaf : Lien

Classes : prov:Activity > (ChangeEvent), Membership, Organization > (FormalOrganization, OrganizationalCollaboration, OrganizationalUnit), Post, skos:Concept > (Role), Site

Propriétés : basedAt, changedBy, classification, hasMember, hasMembership, hasPost, hasPrimarySite, hasRegisteredSite, hasSite, hasSubOrganization, hasUnit, headOf, heldBy, holds, identifier, linkedTo, location, memberDuring, memberOf, member, organization, originalOrganization, postIn, purpose, remuneration, reportsTo, resultedFrom, resultingOrganization, role, roleProperty, siteAddress, siteOf, subOrganizationOf, transitiveSubOrganizationOf, unitOf

6.4 Relationship (rel)

Œuvre de Ian Davis et Eric Vitiello Jr de 2003 à 2010, un vocabulaire pour décrire les relations sociales, familiales, professionnelles et de voisinage. A utiliser conjointement avec FOAF : Lien

6.5 Event (event)

Créé en 2007 par le Centre for Digital Music de Londres, cette ontologie rend possible la description d’événements culturels. Friends of a friend permet la dscription des agents. Les vocabulaires time et geo décrivent les informations spatio-temporelles, date, durée et lieux de l’événement :

Event (agent, factor/isFactorOf, literal_factor, place, producedIn, sub_event, time), Factor, Product

  • The Event Ontology, 2007 : Lien
  • WGS84 Geo Positioning (geo), 2003 : Lien1, Lien2
  • Time Ontology (time), 2006-2017 : Lien

6.6 Semantically-Interlinked Online Communities (sioc)

Description de communautés et réseaux sociaaux, listes de discussion et sites webs : Community, Container, Forum, Item, Post, Role, Site, Space, Thread, UserAccount, Usergroup : Lien

6.7 A vocabulary for biographical information (bio)

Le vocabulaire BIO rend possible en complément de Dublin Core, Event et Friends of a Friend la description d’évènements biographiques centrés sur les individus. Les classes Person et Event sont définies respectivement par les ontologies Friends Of A Friend et Event. La classe Agent est spécifiée par BIO et non Friends Of A Friend.

L’évènement Employment par exemple positionne la personne au centre de la description plutôt que l’organisme employeur. Birth par exemple admettent date et place comme propriété. La biographie du roi Henry VIII est donnée en exemple en fin de description : Lien

Classes associées à Person : Biography, Birth Event, Child, Death Event, Father, Key Words, Life Event, Mother, One-line bio

Exemple d’usage en turtle, Pressac : Lien

@prefix person: <http://prelib.huma-num.fr/person/> .
@prefix event: <http://prelib.huma-num.fr/event/> .
@prefix place: <http://prelib.huma-num.fr/place/> .
@prefix cidoc: <http://www.cidoc-crm.org/cidoc-crm/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix tgn: <http://vocab.getty.edu/tgn/> .

person:80 a cidoc:Person, foaf:Person ;
dc:title "Théodore-Claude-Henri Hersart de la Villemarqué (1815-1895)"@fr ;
foaf:name "Théodore-Claude-Henri Hersart de la Villemarqué"@fr ;
foaf:givenName "Théodore Claude Henri"@fr ;
foaf:familyName "Hersart de la Villemarqué"@fr ;
foaf:nickname "Barz Nizon"@br, "Kervarker"@br;
foaf:gender "male"@en, "homme"@fr ;
bio:birth event:1 ;
bio:event event:3 .

event:1 a bio:Birth ;
rdfs:label "Naissance de Théodore-Claude-Henri Hersart de la Villemarqué le 7 juillet 1815 à Quimperlé"@fr ;
bio:date "1815-07-07"^^xsd:date ;
bio:place tgn:7009459 ; # Voir http://vocab.getty.edu/tgn/7009459
bio:parent person:1115 , person:1114 ;
bio:principal person:1 .

event:3 a bio:Enrolment;
rdfs:label "Entrée au collège des Jésuites de Keranna à Quimper"@fr ;
bio:organization organization:1 ;
bio:date "1825"^^xsd:Year ;
bio:place tgn:7008262 ;
bio:principal person:1 .

7. Encyclopédies et bases de connaissances ouvertes

7.1 The DBpedia Ontology (dbpedia-owl)

Créée à partir de 2007 par l’Université de Berlin par extraction automatique des données factuelles dérivées des infoboxes de Wikipédia, l’ontologie couvre actuellement 685 classes décrites par 2795 propriétés différentes. Elle se distingue par son aspect multilingue (jusqu’à 16 langues selon les entrées) et son ontologie. DBO comprend 57 classes de premier niveau. Quelques unes des classes de premier et second niveau sont ici listées. DBpedia renseigne la propriété de owl equivalentClass. On apprend ainsi aisément que le concept de Person compris par DBPedia est équivalent à celui défini dans foaf ou schema.

Des versions anglaise, allemandes et françaises de DBPedia sont actuellement maintenues :

  • Navigation dans la hiérarchie des classes : Lien
  • Sparql endpoint DbPedia : Lien
  • DbPedia en français à partir de 2012 avec de nombreux outils et tutoriels : Lien
  • Information Wikipédia sur DBpedia : Lien
  • Henri Poincaré via DBpedia France : Lien

7.2 Wikidata

Wikidata, développé à partir de 2012 par Wikimedia Allemagne, cette base de connaissance multilingue peut être éditée en anglais par tout bénévole et se trouve disponible sous licence CC0 proche du domaine public. Une dimension industrielle est visée et les serveurs se doivent de répondre de manière fiable. Wikidata sert possiblement à générer les infobox et les notices d’autorité de l’ensemble des différentes versions linguistiques de Wikipédia. Chaque élément est identifié de manière univoque et multilingue par un numéro débutant par la lettre Q. Ainsi Q1 identifie univers, Q2 Terre, Q3 vie, Q4 mort, Q5 être humain, Q8 bonheur, etc. Un élément wikidata correspond au choix au sujet ou à l’objet dans le triplet sujet -> prédicat -> objet.

La propriété P31instance of” ou “nature de l’élément“, détermine la classe de l’objet. P279subclass of” identife une hiérarchie des classes. Si nous nous intéressons à Q5 “être humain” par exemple, celui-ci est de la classe Homo sapiens Q15978631 et admet comme classe supérieure personne, personne physique et omnivore. D’autres propriétés fréquemment renseignées et pertinentes au niveau structure des données sont P361part of” (humanité), P18image“, P2579studied by” (anthropologie, écologie humaine). Une propriété wikidata correspond au prédicat dans le triplet sujet -> prédicat -> objet.

La propriété P1552 has quality nomme les qualités attendues, possibles à qualifier et pour certaines quantifier (gravité pour univers; masse, champ magnétique et habitabilité pour la Terre; nom, âge, genre, conscience de soi, connaissance de soi, personnalité pour Q5 être humain). Des liens vers d’autres bases de connaissances et encyclopédies concluent la description des items et propriétés.

L’ontologie de Wikidata présente une structure réticulée. Elle peut être interrogée et visualisée sous forme de graphes à l’aide d’outils particuliers comme Wikidata Graph Builder. La classe racine est nommée something. Le réseau des classes de book Q571 peut être ainsi manipulé. Des graphes donnés à titre d’exemple incluent les taxons parents de la baleine, les sous-classes de physiciens en français et d’autres choses amusantes.

  • Wikidata donne des ailes au savoir libre, Lydia Pintscher, 2019, moz://a : Lien
  • Tutoriel Wikidata : Lien
  • Quelques liens WikiData : Sparql, Tutoriel
  • Wikidata Graph Builder, AngryLoki : Lien

7.3 Autres bases de connaissances et dictionnaires

  • BabelNet.org Live, doublé d’un moteur multilingue, interrogation du mot Personne : Lien
  • Proton (ptop), une ontologie généraliste (25 classes, 77 propriétés) : Lien; Protonext (pext) étend proton (488 classes, 115 propriétés, 72 individus) : Lien
  • The CWRC Ontology Specification (Canadian Writing Research Collaboratory), Une ontologie de haut niveau : Lien
  • GeoNames (base de données en géographie) : Lien
  • Getty Thesaurus of Geographic Names : Lien

8. Étude de cas : la musique

Plusieurs ontologies dédiées spécifiquement à la description du processus créatif et éditorial de la musique sont mises au point en France, au Royaume-Uni et aux USA.

8.1 L’ontologie Doremus (mus)

Le projet DOREMUS financé par l’ANR, réunit pendant trois ans de 2014 à 2017 la Bibliothèque Nationale de France, Radio France et la Philharmonie de Paris, ainsi que plusieurs universités et instituts de recherche. Les catalogues des trois institutions établis en MARC par des catalogueurs professionnels sont alignés et un portail de données est généré. L’ontologie DOREMUS est une extension de FRBRoo appliquée spécifiquement au domaine musical. Un Sparql endpoint de même qu’une recherche à facettes motorisés par Virtuoso rendent possible la recherche et la navigation.

  • Portail de données DOREMUS : Lien
  • DOREMUS Ontology : Lien
  • Doremus extension de l’ontologie FRBRoo pour la description des œuvres et événements musicaux : Lien
  • DOREMUS : We create a FRBRoo-based data model and multilingual controlled vocabularies, specifically designed for music, along with documentation, examples and tutorials : Lien, Documentation

8.2 The Music Ontology (mo)

Développée de 2007 à 2013 par le Centre for Digital Music de Londres, The Music Ontology se donne comme objectif de rendre possible la création de bases de connaissances cohérentes et interopérables à partir de plusieurs bases de données comme Musicbrainz, Wikipédia, des éléments du catalogue de la BBC, les données de réseaux sociaux. Elle s’utilise de manière conjointe avec Dublin Core, Timeline, Event et Foaf. Des exemples d’usages sont donnés.

  • The Music Ontology : Lien
  • Music Ontology, le wiki : Lien
  • DBTune.org : Lien

8.3 Performed Music Ontology (pmo)

Le projet Performed Music Ontology résulte de la collaboration de l’Université de Stanford, de la Music Library Association (MLA), de l’Association for Recorded Sound Collections (ARSC), de la Bibliothèque du Congrès et d’institutions partenaires du projet Linked Data for Production (LD4P). Le vocabulaire est une extension de BIBFRAME (bf), l’ontologie de la Bibliothèque du Congrès qui établit un alignement avec le format de catalogage MARC21 en usage dans de nombreuses bibliothèques. Un accent particulier est mis sur la clarification et l’extension de la modélisation des œuvres, des événements et de leurs contributeurs.

  • Performed Music Ontology : Lien

Au-delà du choix de l’ontologie qui semble reposer essentiellement sur des considérations nationales, se pose la question de la mise à jour des données.

9. Outils du web de données

9.1 Répertoires d’ontologies

  • Linked Open Vocabularies (LOV), explorez l’onglet Vocabs (liste des ontologies, visualisation des liens entrant et sortants) et l’onglet Terms (liste de Classes et de propriétés) (700 ontologies, 29900 classes, 37700 propriétés en 2020), par l’Ontology Engineering Group de Madrid : Lien
  • BARTOC.org, Le répertoire d’ontologies de l’Université de Bâle : Lien
  • Ontology repositories au W3C : Lien
  • BioPortal, ontologies du domaine de la biologie et des biotechnologies : Lien
  • Open Metadata Registry : système pour auto-archivage des ontologies : Lien

9.2 Langages, éditeurs d’ontologies, gestionnaires de contenus

  • Omeka S User Manual , Docs > Resources > Vocabularies, un gestionnaire de contenu pour gérer un corpus à l’aide d’ontologies : Lien
  • Module Value Suggest (VIAF, Geonames) d’Omeka S : Lien
  • Langages dédiés au web de données : RDF, RDFS, OWL, SKOS, Notation3, Turtle (syntaxe), JSON-LD, SPARQL, …
  • Protégé, un éditeur d’ontologie : Lien
  • WebProtégé, une interface en ligne hébergée à Stanford : Lien

9.3 Visualiseurs

  • WebVOWL : Visualisez une ontologie au format OWL sur votre navigateur. Une ontologie peut être explorée à l’aide d’un simple navigateur : Lien, Exemple avec Foaf
  • LodLive : Visualisez graphiquement les liens et classes d’items du web de données. Explorer par exemple “Le corbeau” (1845) d’Edgar Allan Poe : Lien
  • Bienvenue aux sparna-labs ! : Le laboratoire de Thomas Francart : Lien

10. Conclusion

Deux sortes d’ontologies émergent du paysage actuel du web de données. Les ontologies de bas niveau proposent une vision “par le bas” d’un ensemble de données. Des petits vocabulaires judicieusement assemblées rendent possible la description d’items de classes différentes. Utilisées par les grands organismes de la gestion des connaissances tels que les bibliothèques, les archives et les encyclopédies ou google, les ontologies de haut niveau sont susceptibles de décrire de vastes ensembles d’éléments.

Ces deux approches font émerger de vrais réflexions philosophiques. Comment décrire de manière cohérente des choses qui existent en plusieurs états et multiples exemplaires ou bien au contraire complètement uniques ? Quels niveaux de précision donner pour capter l’information adéquate ? Quel public est visé et quelles interfaces proposer pour la navigation ?

L’usage fréquent de vocabulaires de bas comme de haut niveau fait que cet article aurait pu être intitulé également “Des ontologies pour tous… et aussi pour les sciences humaines”. Les problématiques fort anciennes de la structuration des connaissances, que celles-ci soient culturelles ou bien naturelles restent d’autant plus d’actualité que celles-ci revètent un aspect fortement dynamique.

  • Le sens du sens : les ontologies, ce n’est pas (que) de la philosophie ! , Chabot, 2017 : Lien
  • ModSci, Modern Science Ontology. Une ontologie des disciplines scientifiques : Lien
  • Ontology Alignment Evaluation Initiative: Six Years of Experience, Euzenat, 2011 : Lien
  • Ontology engineering : Lien
Ontologie Modern Science (ModSci) vue avec WebVOWL : Lien
Une distribution généalogique des sciences et des arts principaux. Encyclopédie de Diderot et D’Alembert, édition de 1751 : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *