Des ontologies pour les sciences humaines … et pour les autres

Web de données et graphe

Initié par Tim Berners Lee et le W3C en 1999, le Web sémantique encore appelé Web de données tisse lentement sa toile, et avec lui plusieurs ontologies incontournables émergent du paysage. Globalement, une ontologie (un vocabulaire) modélise la description des données d’un corpus. Ces données peuvent être simplement caractérisées par leur titre et leur URL. Des documents numériques au format texte, image, vidéo, et autres peuvent s’ajouter à cela. Des collections de tels documents peuvent être relatives à des personnes, des organismes, des évènements, des artéfacts en relation avec un thème. Une description homogène est nécessaire.

Les ontologies viennent renouveler le formalisme des anciens thésauri, lexiques, référentiels et plans de classement. Qu’est-ce qu’une ontologie ? Des Classes organisées hiérarchiquement définissent des sortes de choses, des types d’objets. Parfois communes à plusieurs Classes, parfois spécifiques, des propriétés précisent très concrètement les champs à remplir pour décrire les items d’une classe donnée. Parmi les conventions, les noms des Classes s’écrivent généralement avec la première lettre de leur nom en majuscule. Les noms de propriété ont leur première lettre en minuscule.

Ainsi par exemple, une Personne, un Groupe, un Organisme, un Document, un Message, un Artefact, un Événement constituent des Classes, des types de “choses”. Des propriétés tels que titre, résumé, auteur, date, lieu, sujet, langue permettent de décrire une grande variété de Classes de manière pertinente. Une propriété telle qu’isbn ne peut être associée qu’à la Classe Livre. La propriété incipit serait par contre spécifique d’une classe Correspondance ou bien Message.

Dès lors, une ontologie est constituée d’un ensemble de Classes et de propriétés qui rendent possible la description de toute entité du domaine d’application de l’ontologie. Le vocabulaire employé dans le domaine du web de données constitue une première difficulté. Une sorte d’équation dans laquelle des synonymes et brèves explications se trouvent entre parenthèses donne une définition :

Ontologie (vocabulaire) = Classes (types) + propriétés (métadonnées, éléments) + règles de structure et d’usage (organisation hiérarchique des classes et des propriétés, règles d’application à la description des items d’un corpus, vocabulaires attendus en renseignement d’une propriété)

Quelques uns des concepts du web de données sont présentés dans l’introduction. Puis une liste de répertoires, d’outils et d’ontologies fréquemment utilisées conclut la description.

Un brin de technique

Des notations distinctes mais équivalentes permettent l’écriture d’ontologies. Parmi celles-ci le Graphe orienté, OWL (Web Ontology Language), N3 (Notation3), Turtle. Le langage SKOS (Simple Knowledge Organization System) est dédié à la notation des thesauri, plans de classements, listes de sujet et taxonomies. OWL et SKOS s’appuient eux-mêmes sur des formalismes RDF (Resource Description Framework) et RDFS (RDF Schema). Les trois langages Microdata, RDFa et JSON-LD sont dédiés à l’exposition des métadonnées d’un corpus sur le web et à leur identification par les robots d’indexation des moteurs de recherche.

Des contenus structurés à l’aide d’ontologies peuvent être interrogés à l’aide du langage Sparql sur un Triple Store, sorte de logiciel dédié au stockage et à l’interrogation de triplets RDF et catégorie de base de donnée orientée graphe. Au niveau informatique, les ontologies définissent les classiques paires attribut-valeur des diagrammes de classe utilisés par les modèles entité-relation. Globalement, les ontologies sont conçues pour être réutilisables, interopérables et publiques, possiblement en usage restreint [1]Resource Description Framework; (RDF) Model and Syntax Specification : Lien.

Ontologies généralistes ou spécialisées ?

Ceci précisé, plusieurs sortes d’ontologies se distinguent, susceptibles d’être assemblées et mixées pour enrichir les possibilités de description de tout corpus. 1/ Des ontologies de haut niveau tentent de décrire toute Chose, toute entité de n’importe quel corpus. 2/ Des ontologies spécifiques décrivent les notions particulières d’un métier, comme la documentation ou la médecine par exemple. 3/ Des dictionnaires – sortes de bases de connaissances d’un type particulier décrivent de grandes séries d’éléments factuels et se trouvent formalisées en SKOS.

Parmi cette dernière catégorie, GeoNames est une base de données géographique gratuite qui permet de décrire un lieu et de récupérer un URI ainsi que des renseignement comme une hiérarchie administrative, un code postal, des coordonnées géographiques. Autre exemple, le fichier d’autorité international virtuel (Virtual International Authority File : VIAF) sert à identifier de manière uniforme des personnes et des organismes auteurs de publications scientifiques. Établi par le Sudoc (Système Universitaire de Documentation) de l’Abes (Agence Bibliographique de l’Enseignement Supérieur) Idref répertorie des auteurs – personnes et organismes – ainsi que des lien vers les références bibliographiques de l’auteur. Le moteur searchFAST permet de récupérer des notices bibliographiques de l’OCLC au format web de données.

Alors comment s’y retrouver dans cette jungle d’ontologies, de Classes et de propriétés ? Quel choix faire parmi une multitude pour assurer à la fois une description pertinente des documents de votre corpus, le bénéfice des travaux faits par d’autres, un bon référencement par les moteurs de recherche ? Des répertoires tels que Linked Open Vocabularies (LOV) permettent d’explorer quelques unes des ontologies existantes et les graphes des relations qu’elles entretiennent. Les relations entrantes et sortantes, de même que les dates de création sont visualisés à l’aide de l’interface. De nombreux liens entrants sont à privilégier lors du choix d’une ontologie.

A gauche le graphe des ontologies qui se servent de Bibo;
à droite, celles utilisées par Bibo, une ontologie du domaine de la doc : Lien

Propriété non liée, propriété liée interne, ou propriété liée externe ?

Une politique globale de traitement des documents d’un corpus doit être établie. Trois possibilités existent pour renseigner les propriétés :

  1. Renseigner une métadonnée sous forme de texte simple, sans liaison aucune, mais en respectant de préférence des règles. Une date peut par exemple être notée avec une grande expressivité : “1905”, “1905 / 1912” pour une durée, “1905-12-09” pour plus de détails, tout en maintenant la possibilité d’un tri alphabétique par valeur du champs, comme le propose EDTF qui vient préciser le format ISO 8601 de notation normalisée des dates. La propriété reste volontairement non liée – car lier de telles données quantitatives ne présente pas d’intérêt. C’est la solution la plus simple.
  2. Indexer à l’aide de liens internes. Un item d’un corpus peut être lié à un autre item du même corpus. Ainsi, un article publié peut être lié à son auteur dont une biographie sera présentée; il peut être lié à une revue ou bien à une traduction. Autre exemple : Un Colloque (évènement) peut être détaillé avec des liens vers les Conférences particulières données par les conférenciers. L’interface de consultation du corpus permet la navigation aisée entre documents de classes différentes.
  3. Indexer avec un lien externe. Si l’on dispose dans un domaine quelconque d’un référentiel incontournable capable de fournir des URI de qualité et maintenues (BNF, Gallica, IdRef, VIAF, GeoNames, etc…), il est possible d’identifier un item en le liant à l’aide d’un URL externe. Une personne, un organisme, un document ou un lieu géographique sont des items classiquement identifiés ainsi. Les données sont dites liées.
Corpus de OWA, Acoustic ceiling system : Lien

Politique d’édition et de maintenance

Quelle politique mener pour bien indexer votre corpus et le rendre visible ? Plusieurs solutions sont possibles et plusieurs contraintes pèsent en effet sur les épaules du groupe des ontologistes amené à gérer sur la durée des vocabulaires et des contenus.

Il convient en premier lieu de tenir compte du temps nécessaire pour renseigner les métadonnées. Lier des données prend du temps, s’avère difficilement automatisable. Négliger le champ Description et vouloir tout détailler sous forme d’un champ spécifique peut conduire à des déconvenues. Certains logiciels présentent également des contraintes particulières. Il apparait nécessaire de choisir des ontologies largement adoptées, gages d’interopérabilité et d’interrogation aisée, de bon référencement. Une ontologie telle que schema par exemple sera identifiée par les robots de la firme de Mountain View et votre corpus pourra devenir fameux. Une ontologie se montre évolutive et des versions, voire des extensions peuvent en être publiées.

Il peut s’avérer qu’une communauté souhaite créer sa propre ontologie afin de décrire des notions non couvertes par les ontologies existantes. Les options des grands organismes du web, tels que les bibliothèques, les archives, les musées, les organismes spécialisés (Wikipédia, BNF, Library of Congress, ABES, SuDoc, BNF, Persée, HAL, INIST, Huma-Num Isidore, Larhra, Google) méritent alors d’être étudiés avant toute entreprise. L’extension d’une ontologie préexistante peut s’avérer préférable, ceci afin de bénéficier des travaux faits par d’autres professionnels d’une discipline.

Au final, votre politique éditoriale devrait résulter d’un délicat équilibre entre d’une part une description adaptée aux objectifs, facile à mettre en œuvre pour les documentalistes (pour vous-même ou vos amis bien souvent), l’usage d’ontologies largement employées et reconnues des grands moteurs, et conduisant surtout à une expérience plaisante de la communauté des lecteurs.

Excellente exploration de ces liens, judicieux choix de licence pour votre corpus, et bonnes options ontologiques. À vous de jouer !

Alignement de deux ontologies nommées o et o’ : Lien

Sommaire

1. Répertoires et outils
2. Ontologies et vocabulaires assez généralistes
3. Ontologies spécialisées métiers
3.1 Métiers de la bibliothèque
3.2 Métiers des archives, des musées, de l’archéologie, de l’histoire
3.3 Métiers de la santé
Pour aller plus loin

1. Répertoires et outils

  • Linked Open Vocabularies (LOV), explorez l’onglet Vocabs (liste des ontologies, visualisation des liens entrant et sortants) et l’onglet Terms (liste de Classes et de propriétés) (700 ontologies, 29900 classes, 37700 propriétés en 2020), par l’Ontology Engineering Group de Madrid : Lien
  • BARTOC.org, Le répertoire d’ontologies de l’Université de Bâle : Lien
  • Afficher une notice du web de données avec LodLive et visualisez celle-ci graphiquement. Explorer “Le corbeau” de Poe : Lien
  • Ontology repositories (entrepôts d’ontologies) : Lien
  • BioPortal, biotechnologies (entrepôt) : Lien
  • Omeka S User Manual , Docs > Resources > Vocabularies : Lien
  • Module Value Suggest (VIAF, Geonames), Omeka S : Lien
  • Langages dédiés au web de données : RDF, RDFS, OWL, SKOS, Notation3, Turtle (syntaxe), JSON-LD, SPARQL, …
  • Open Metadata Registry : Lien
  • Protégé, un éditeur d’ontologie : Lien
  • WebProtégé, une interface en ligne hébergée à Stanford : Lien
  • WebVOWL : Visualisez une ontologie sur votre navigateur. Une ontologie personnalisée peut être explorée depuis l’installation publique : Lien

2. Ontologies et vocabulaires assez généralistes

Les noms des ontologies sont suivies de leur abréviation la plus courante. Des ontologies axées document, relations sociales, ou bien événement se distinguent.

2.1 Dublin Core (dc)

Crée en 1995 à Dublin (Ohio) par le DCMI (Dublin Core Metadata Initiative) et antérieure à la notion de web de données, c’est l’ontologie la plus ancienne et la plus utilisée pour ses propriétés simples, globalement plus axées document que relations sociales.

a/ Classes DCMI Type

Les classes “DCMI Type Vocabulary” indiquent les objets que Dublin Core entend décrire. Des propriétés particulières s’appliquent à la classe Collection.

Collection (accrualMethod, accrualPeriodicity, accrualPolicy), Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text

b/ Propriétés simples et (propriétés affinées qui viennent possiblement préciser la nature de la propriété simple)

  1. contributor
  2. coverage > (spatial – pays en ISO 3166-1, temporal)
  3. creator
  4. date > (available, created, dateAccepted, dateCopyrighted, dateSubmitted, issued, modified, valid)
  5. description > (abstract, tableOfContents)
  6. format > (extent, medium)
  7. identifier > (bibliographicCitation)
  8. language (ISO 639-2, 639-3, RFC1766)
  9. publisher
  10. relation > (conformsTo, hasFormat, hasPart, hasVersion, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, isVersionOf, references, replaces, requires)
  11. rights (accessRights, license)
  12. source
  13. subject
  14. title > (alternative)
  15. type

2.2 Friend of a friend (foaf)

Créée au milieu des années 2000, FOAF a progressivement évolué et constitue l’une des ontologie les plus largement utilisée de nos jours en complément de Dublin Core. Une hiérarchie de classe est proposée accompagnée de propriétés spécifiques :

2.3 Schema.org (schema)

Google, Bing (Microsoft), Yahoo, Yandex spécifient le vocabulaire schema en 2011 et lancent depuis de régulières mises à jour. L’objectif est pour les moteurs de recherche de renseigner des bases de connaissance à partir des pages parcourues par les robots d’indexation. Les éditeur de sites web attendent en retour l’optimisation de leur référencement. La version 7.0 sort le 10 mars 2020. Une vaste hiérarchie de classe est proposée. Au-delà des préoccupations de marketing, cette ontologie de haut niveau peut décrire de manière aussi précise que souhaité une grande variété d’objets du web.

Schema s’avère assez complet et dispose d’une architecture solide. D’autres ontologies comme “The Product Types Ontology” ou “GoodRelations” étendent ses champs d’applications. Deux articles de ce blog concernent ce vocabulaire : Lien

2.4 The DBpedia Ontology (dbpedia-owl)

Créée à partir de 2007 par l’Université de Berlin par extraction automatique des données factuelles dérivées des infoboxes de Wikipédia, l’ontologie couvre actuellement 685 classes décrites par 2795 propriétés différentes. Elle se distingue par son aspect multilingue (jusqu’à 16 langues selon les entrées) et sa structuration fort variable. DBO comprend 57 classes de premier niveau. Quelques unes des classes de premier et second niveau sont ici listées. DBpedia se trouve de nos jours fortement concurrencée par Wikidata.

Des versions anglaise, allemandes et françaises de DBPedia sont actuellement maintenues :

  • Arbre complet des classes : Lien
  • Sparql en version anglaise : Lien,
  • DbPedia en français à partir de 2012 avec de nombreux outils et tutoriels : Lien
  • DBPedia sur Wikipedia fr : Lien
  • Henri Poincaré via DBpedia : Lien

2.5 Semantically-Interlinked Online Communities (sioc)

Description de certaines communautés et objets tels que des listes de discussion et sites webs : Community, Container, Forum, Item, Post, Role, Site, Space, Thread, UserAccount, Usergroup : Lien

2.6 Organization (org)

Fonctionnement d’un organisme dont des agents sont répartis sur plusieurs sites : Lien

2.7 vCards (vcard)

Format de fichier pour l’échange de cartes de visites électroniques créé en 1998 par l’IETF pour l’échange d’informations personnelles et professionnelles par eMail, MMS, messagerie instantanés ou QR code. Défini comme une ontologie par le W3C en 2014 : Lien

Hiérarchie des classes

Liste des propriétés

address, agent, email, geo, has additional name, has address, has calendar busy, has calendar link, has calendar request, has category, has country name, has email, has family name, has formatted name, has gender, has geo, has given name, has honorific prefix, has honorific suffix, has key, has language, has locality, has logo, has member, has messaging, has name, has nickname, has note, has organization name, has organization unit name, has photo, has postal code, has region, has related, has role, has sound, has source, has street address, has telephone, has title, has uid, has url, has value, key, logo, name, organization, photo, sound, telephone, url

2.8 Relationship (rel)

Œuvre de Ian Davis et Eric Vitiello Jr de 2003 à 2010, un vocabulaire pour décrire les relations de parenté, professionnelles et sociales entre les gens, à utiliser conjointement avec FOAF : Lien

2.9 Event (event)

Créé en 2007 par le Centre for Digital Music de Londres : Event (agent, factor/isFactorOf, literal_factor, place, producedIn, sub_event, time), Factor, Product

2.10 Autres ontologies généralistes

  • Wikidata, développé à partir de 2012 par Wikimedia Allemagne, ontologie et base de donnée secondaire rassemblant les informations factuelles de l’ensemble des versions linguistiques de Wikipedia : Lien
  • BabelNet.org Live, doublé d’un moteur multiligue, interrogation du mot Personne : Lien
  • GeoNames (base de données en géographie) : Lien
  • Proton (ptop), une ontologie généraliste (25 classes, 77 propriétés) : Lien; Protonext (pext) étend proton (488 classes, 115 propriétés, 72 individus) : Lien
  • The CWRC Ontology Specification (Canadian Writing Research Collaboratory) : Lien
  • The Open Graph protocol (og), l’ontologie de FaceBook : Lien
  • Tweet Object, l’ontologie de Twitter en JSON : Lien

3. Ontologies spécialisées métiers

Les métiers des bibliothèques, des archives et de la santé sont ici considérés à titre d’exemple, mais des ontologies et des bases de connaissances aux formats web de données modélisent la plupart des activités (chimie, architecture, droit, économie, sciences politiques, etc).

3.1 Métiers de la bibliothèque

3.1.1 Ontologies pour décrire les personnes et les organismes

  • BIO, (biographie) : Lien, Event > (…), à tester…

3.1.2 Description des documents et des personnes

  • Bibframe (bf), 2014 : L’ontologie de la Bibliothèque du Congrès, présentée comme une alternative à MARC : Lien
  • FRBR : Lien
  • FRBRoo : Lien
  • FaBIO, the FRBR-aligned Bibliographic Ontology : Lien
  • ModSci, Modern Science Ontology; (disciplines scientifiques) : Lien
  • Nature Publishing Group ontology (npg) 2015 : Lien
  • MADS (Metadata Authority Description Schema in RDF) : une ontologie produite par la Bibliothèque du Congrès pour décrire simplement les autorités (auteurs de textes et affiliations, personnes et organismes) : Lien

3.1.3 The Bibliographic Ontology (bibo)

Créée en 2009, cette ontologie appuie certaines de ses propriétés sur FOAF et Dublin Core (dct). Publié sur github Lien1, Lien2, bibo.owl. La classe Collection rassemble les documents en série, alors que DocumentPart entre dans le détail des parties d’un document. Le signe > indique ic une hiérarchie des propriétés qui vient introduire des nuance possibles dans la précision d’une description :

Thing (abstract, identifier > (asin, coden, doi, eanucc13, eissn, gtin14, handle, isbn, issn, Iccn, oclcnum, pmid, sici, upc, uri))

Bibo avec Protégé : Lien

3.1.3 Ressources au format web de donnée

  • ABES (Agence Bibliographique de l’Enseignement Supérieur), Data IdRef, Autorités et littérature académique (personnes, organismes, articles, livres, thèses) : Lien, sparql end-point : Lien, https://data.idref.fr/endpoint.html
  • BnF (littérature) : data.bnf.fr, Lien sparql end-point, https://data.bnf.fr/opendata
  • Hal (littérature scientifique française), Sparql end-point : Lien
  • Persée (littérature académique en sciences humaines), sparql end-point : Lien
  • Isidore (contenus de corpus de sciences humaines), sparql end-point : Lien
  • Ontologie ISTEX, data.istex.fr (littérature scientifique)
  • Biblissima : Lien, (littérature médiévale)
  • VIAF (personnes et organismes, autorités) : Lien
  • searchFast (notices bibliographiques, autorités) : Lien
Ontologie Modern Science (ModSci) vue avec WebVOWL : Lien

3.2 Métiers des archives, des musées, de l’archéologie, de l’art, de l’histoire

3.3 Métiers de la santé

Phast poursuit son action de diffusion de SNOMED CT en France, 2017 : Lien
  • SNOMED Clinical Terms, ensemble organisé de plus de 300 000 concepts à disposition des acteurs de santé : Lien
  • NCI Thesaurus couvre le domaine du cancer : Lien
  • Unified Medical Language System, NLM : Lien1, Lien2
  • The OBO Foundry, répertoire des ontologies de différents domaines de la biologie et de la médecine : Lien
  • GENEONTOLOGY; le consortium GO un modèle informatique des systèmes biologiques du niveau moléculaire au niveau organisme entier de plusieurs espèces : Lien
  • The CWRC Illness and Injury Ontology : Lien
  • BIO2RDF, Linked Data for the Life Sciences : Lien1, Lien2

Pour aller plus loin

  • Le sens du sens : les ontologies, ce n’est pas (que) de la philosophie ! , Chabot, 2017 : Lien
  • Ontology Alignment Evaluation Initiative: Six Years of Experience, Euzenat, 2011 : Lien
  • Ontology engineering : Lien
Calligraphie de Delphine Malasingne, 2018, citation TBL : Lien

Notes   [ + ]

1. Resource Description Framework; (RDF) Model and Syntax Specification : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *