Des ontologies pour les sciences humaines … et pour les autres

Web de données et graphe

Initié par Tim Berners Lee et le W3C en 1999, le Web sémantique encore appelé Web de données tisse lentement ses liens, et avec lui plusieurs ontologies et triples stores incontournables émergent du paysage. Globalement, une ontologie (un vocabulaire) modélise la description des documents d’un corpus. L’indexation peut concerner un document considéré globalement. Des éléments particuliers du contenu peuvent également être annotés, que celui-ci soit au format texte, image ou vidéo. On parle alors d’annotation sémantique. Les ontologies formalisent ce qui va être considéré. Elles rendent possible la modélisation des relations entre personnes, groupes et organismes, entre parties de document, documents et collections, artéfacts et systèmes et bien d’autres choses encore.

Les ontologies et leurs langages dédiés viennent renouveler le formalisme ancien des thésauri, lexiques, référentiels et plans de classement. Un jargon s’est progressivement constitué autour du concept. Il s’agit d’organiser la description des entités de notre environnement. Des Classes organisées hiérarchiquement définissent des sortes de Choses. Les termes génériques de Chose, Entité ou Objet sont considérés dans ce billet comme synonymes. Le web de donnée emploie Thing / Chose pour désigner la classe la plus générique de toute ontologie. Parfois communes à plusieurs Classes, parfois spécifiques, des propriétés précisent très concrètement les champs à remplir pour décrire un type de Chose d’un corpus.

Ainsi par exemple, une Personne, un Groupe, un Organisme, un Document, un Message, un Artefact, un Événement constituent des Classes entre lesquelles des relations hiérarchiques peuvent exister. Un Message est une sorte de Document. Une sous-classe peut appartenir à plusieurs Classes génériques distinctes et hériter de leurs propriétés. Des propriétés telles que titre, résumé, auteur, date, lieu, sujet, langue permettent de décrire une grande variété de Classes de manière pertinente. De la même manière, des hiérarchies de propriétés peuvent exister. Le champ titre alternatif est une sous-propriété de titre et peut décrire de multiples Classes. La propriété incipit serait par contre spécifique d’une classe Lettre ou bien Message.

Dès lors, une ontologie est constituée d’un ensemble de Classes et de propriétés qui rendent possible la description de toute entité du domaine d’application de l’ontologie. Parmi les conventions, les noms des Classes s’écrivent avec la première lettre en majuscule et les noms de propriété ont leur première lettre en minuscule. Les métadonnées sont les contenus des propriétés et décrivent une instanciation d’une Classe identifiée par son adresse web disponible sous forme d’URI (Uniform Resource Identifier – une URL avec des chiffres formant un identifiant unique).

Un brin de technique

Des exemples classiques d’URI sont un DOI, un identifiant ARK ou HANDLE, un numéro de Wikidata, etc. Des langages distincts mais équivalents permettent l’écriture d’ontologies. Parmi ceux-ci la Liste imbriquée, le Graphe orienté, OWL (Web Ontology Language), N3 (Notation3). Le langage SKOS (Simple Knowledge Organization System) est dédié à la notation des thesauri, plans de classements, listes de sujet et taxonomies. OWL et SKOS s’appuyent sur les formalismes RDF (Resource Description Framework) et RDFS (RDF Schema). Les trois langages Microdata, RDFa et JSON-LD sont dédiés à l’exposition des métadonnées d’un corpus sur le web et à leur identification par les robots d’indexation des moteurs de recherche.

Ontologies et dictionnaires peuvent être interrogés simultanément à l’aide du langage Sparql sur un Triple Store, sorte de logiciel dédié au stockage et à l’interrogation de triplets RDF. Au niveau informatique, les ontologies définissent les classiques paires attribut-valeur des diagrammes de classe utilisés par les modèles entité-relation. Les administrateurs de bases de données relationnelles préfèrent parler d’Entité plutôt que de Chose, mais globalement, les principes présentent de fortes ressemblances. Une des autres différences tient au fait que les ontologies sont conçues pour être réutilisables, interopérables et publiques [1]Resource Description Framework; (RDF) Model and Syntax Specification : Lien. Ontologie et programmation orientée objet partagent de la même façon des éléments de vocabulaire comme celle d’héritage par exemple.

Ontologies généralistes ou spécialisées ?

Ceci précisé, plusieurs catégories d’ontologies peuvent être distinguées, toutes susceptibles d’être assemblées et mixées pour enrichir les possibilités de description de votre corpus édité publiquement sur le web. 1/ Des ontologies généralistes tentent de décrire toute Chose, toute entité de n’importe quel corpus. 2/ D’autres ontologies décrivent des notions particulières d’un métier, comme la documentation ou la médecine par exemple. 3/ Des dictionnaires – sortes de bases de connaissances et ontologies d’un type particulier décrivent des éléments factuels formalisés en SKOS.

Parmi cette dernière catégorie, GeoNames est une base de données géographique gratuite qui permet de décrire un lieu et de récupérer un URI ainsi que des renseignement comme une hiérarchie administrative, un code postal, des coordonnées géographiques. Autre exemple, le fichier d’autorité international virtuel (Virtual International Authority File : VIAF) sert à identifier de manière uniforme des personnes et des organismes auteurs de publications scientifiques. Établi par le Sudoc (Système Universitaire de Documentation) de l’Abes (Agence Bibliographique de l’Enseignement Supérieur) Idref répertorie des auteurs – personnes et organismes – ainsi que des lien vers les références bibliographiques de l’auteur.

Alors comment s’y retrouver dans cette jungle d’ontologies, de Classes et de propriétés ? Quel choix faire parmi une multitude pour assurer à la fois une description pertinente des documents de votre corpus, le bénéfice des travaux faits par d’autres, un bon référencement par les moteurs de recherche ? Des outils apportent une aide à la décision. Des répertoires tels que Linked Open Vocabularies (LOV) permettent d’explorer quelques unes des ontologies existantes et les graphes des relations qu’elles entretiennent. Les relations entrantes et sortantes, de même que les dates de création sont visualisés à l’aide de l’interface. De nombreux liens entrants sont à privilégier lors du choix d’une ontologie.

A gauche le graphe des ontologies qui se servent de Bibo;
à droite, celles utilisées par Bibo, une ontologie du domaine de la doc : Lien

Propriété non liée, propriété liée interne, ou propriété liée externe ?

Une fois que les ontologies nécessaires à l’indexation de votre corpus précisée, une politique globale de traitement des documents doit être établie. Trois possibilités existent pour renseigner les propriétés :

  1. Renseigner une métadonnée sous forme de texte simple, sans liaison aucune, mais en respectant de préférence des règles. Une date peut par exemple être notée avec une grande expressivité : “1905”, “1984?” année incertaine, 2004-06~” mois approximatif, “2004-06-11%” date incertaine et approximative, “1905 / 1912” pour une durée, “1905-12-09” pour plus de détails, tout en maintenant la possibilité d’un tri alphabétique par valeur du champs, comme le propose EDTF qui vient étendre la notation normalisée des dates ISO 8601. La propriété reste volontairement non liée – car lier des données quantitatives ne présente pas d’intérêt. C’est la solution la plus simple.
  2. Indexer à l’aide de liens internes. Un item d’un corpus peut être lié à un autre item du même corpus. Ainsi, un article publié peut être lié à son auteur dont une biographie sera présentée; il peut être lié à une revue ou bien à une traduction. Autre exemple : Un Colloque (évènement) peut être détaillé avec des liens vers les Conférences particulières données par les conférenciers.
  3. Indexer avec un lien externe. Si l’on dispose dans un domaine quelconque d’un référentiel incontournable capable de fournir des URI de qualité et maintenues (BNF, Gallica, IdRef, VIAF, GeoNames, etc…), il peut être pertinent d’identifier sans ambiguïté à l’aide d’un URI externe une personne, un organisme, un document ou un lieu géographique par exemple.
Corpus de OWA, Acoustic ceiling system : Lien

Politique d’édition et de maintenance

Quelle politique mener pour bien indexer votre corpus et le rendre visible ? L’incertitude demeure car plusieurs solutions sont possibles. Si bien que seuls des tests, des maquettes ou de nombreuses expériences vraiment positives peuvent donner une réponse, favoriser un choix parmi de nombreux possibles. Plusieurs contraintes pèsent en effet sur les épaules du groupe des ontologistes amené à gérer sur la durée des vocabulaires et des contenus.

Il convient en premier lieu de tenir compte du temps nécessaire pour renseigner les métadonnées. Lier des données prend du temps, s’avère difficilement automatisable. Négliger le champ Description et vouloir tout détailler sous forme d’un champ spécifique peut conduire à des déconvenues. Certains logiciels présentent également des contraintes particulières. Il apparait nécessaire de choisir des ontologies largement adoptées, gages d’interopérabilité et d’interrogation aisée, de bon référencement. Une ontologie telle que schema par exemple sera identifiée par les robots de la firme de Mountain View et votre corpus pourra devenir fameux. Une ontologie se montre évolutive et des versions, voire des extensions peuvent en être publiées.

Il peut s’avérer qu’une communauté souhaite créer sa propre ontologie afin de décrire des notions non couvertes par les ontologies existantes. Les options des grands organismes du web, tels que les bibliothèques, les archives, les musées, les organismes spécialisés (Wikipédia, BNF, Library of Congress, ABES, SuDoc, BNF, Persée, HAL, INIST, Huma-Num Isidore, Larhra, Google) méritent alors d’être étudiés avant toute entreprise. L’extension d’une ontologie préexistante peut s’avérer préférable, ceci afin de bénéficier des travaux faits par d’autres professionnels d’une discipline.

Au final, votre politique éditoriale devrait résulter d’un délicat équilibre entre d’une part une description adaptée aux objectifs, facile à mettre en œuvre pour les documentalistes (pour vous-même ou vos amis bien souvent), l’usage d’ontologies largement employées et reconnues des grands moteurs, et conduisant surtout à une expérience plaisante de la communauté des lecteurs.

Alors excellente exploration de ces liens, judicieux choix de licence pour votre corpus, et bonnes options ontologiques. À vous de jouer !

Alignement de deux ontologies nommées o et o’ : Lien

Sommaire

1. Répertoires et outils
2. Ontologies et vocabulaires assez généralistes
3. Ontologies plutôt spécialisées métiers
3.1 Métiers de la bibliothèque
3.2 Métiers des archives, des musées, de l’archéologie, de l’histoire
3.3 Métiers de la santé
Pour aller plus loin

1. Répertoires et outils

  • Linked Open Vocabularies (LOV), explorez l’onglet Vocabs (liste des ontologies, visualisation des liens entrant et sortants) et l’onglet Terms (liste de Classes et de propriétés) (700 ontologies, 29900 classes, 37700 propriétés en 2020), par l’Ontology Engineering Group de Madrid : Lien
  • BARTOC.org, Le répertoire d’ontologies de l’Université de Bâle : Lien
  • Afficher une notice du web de données avec LodLive et visualisez celle-ci graphiquement. Explorer “Le corbeau” de Poe : Lien
  • Ontology repositories (entrepôts d’ontologies) : Lien
  • BioPortal, biotechnologies (entrepôt) : Lien
  • Omeka S User Manual , Docs > Resources > Vocabularies : Lien
  • Module Value Suggest (VIAF, Geonames), Omeka S : Lien
  • Langages dédiés au web de données : RDF, RDFS, OWL, SKOS, Notation3, JSON-LD, SPARQL, …
  • Protégé, un éditeur d’ontologie : Lien
  • WebProtégé, une interface en ligne hébergée à Stanford : Lien
  • WebVOWL : Visualisez une ontologie sur votre navigateur. Une ontologie personnalisée peut être explorée depuis l’installation publique : Lien

2. Ontologies et vocabulaires assez généralistes

Les noms des ontologies sont suivies de leur abréviation la plus courante. On peut distinguer des ontologies plutôt axées document, axées relations sociales, ou bien événement.

2.1 Dublin Core (dc)

Crée en 1995 à Dublin (Ohio) par le DCMI (Dublin Core Metadata Initiative) et antérieure à la notion de web de données, c’est l’ontologie la plus ancienne et la plus utilisée pour ses propriétés simples, globalement plus axées sur la description des documents que celle des relations sociales, comme le montre bien l’élément relation.

a/ Classes standards

b/ Classes DCMI Type

Collection (accrualMethod, accrualPeriodicity, accrualPolicy), Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text;

c/ Propriétés simples *, et raffinements entre parenthèses

  1. contributor*,
  2. coverage* > (spatial – pays en ISO 3166-1, temporal),
  3. creator*,
  4. date* > (available, created, dateAccepted, dateCopyrighted, dateSubmitted, issued, modified, valid)
  5. description* > (abstract, tableOfContents)
  6. format* > (extent, medium)
  7. identifier* > (bibliographicCitation)
  8. language* (ISO 639-2, 639-3, RFC1766)
  9. publisher*
  10. relation* > (conformsTo, hasFormat, hasPart, hasVersion, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, isVersionOf, references, replaces, requires)
  11. rights* (accessRights, license)
  12. source*,
  13. subject*,
  14. title* > (alternative)
  15. type*

2.2 Friend of a friend (foaf)

Créée au milieu des années 2000, FOAF a progressivement évolué et constitue l’une des ontologie les plus largement utilisée pour des raisons historiques. Aux éléments cœurs marqués ici d’une astérique s’ajoutent des spécification destinées à décrire les réseaux sociaux (du passé) ou marquées en cours de test :

2.3 Schema.org (schema)

Google, Bing, Yahoo, Yandex spécifient le vocabulaire schema en 2012 et lancent depuis de régulières mises à jour. L’objectif est pour l’éditeur d’un site de commerce électronique d’optimiser son référencement et pour les moteurs de recherche de renseigner des bases de connaissance à partir des pages parcourues par les robots d’indexation. La version 6.0 sort le 15 janvier 2020. Arborescence complète : Lien

Classes de premier niveau de Thing : Action, CreativeWork, Event, Intangible, MedicalEntity, Organization, Person, Place, Product;

Schema s’avère assez complet et dispose d’une architecture solide. D’autres ontologies comme “The Product Types Ontology” ou “GoodRelations” étendent ses champs d’applications. Les renseignements qu’un moteur de recherche peut ainsi récupérer des pages du web vont au delà du simple commerce. Des acteurs comme des assurances ou des banques, des épidémiologistes et des statisticiens peuvent se montrer intéressés. Un billet plus détaillé se trouve sur ce blog : Lien

2.4 The DBpedia Ontology (dbpedia-owl)

Créée à partir de 2007 par l’Université de Berlin par extraction automatique des données factuelles dérivées des infoboxes de Wikipédia, l’ontologie couvre actuellement 685 classes décrites par 2795 propriétés différentes. Elle se distingue par son aspect multilingue (jusqu’à 16 langues selon les entrées) et sa structuration fort variable. DBO comprend 57 classes de premier niveau. Quelques unes des classes de premier et second niveau sont ici listées.

Des versions anglaise, allemandes et françaises de DBPedia sont actuellement maintenues :

  • Arbre complet des classes : Lien
  • Sparql en version anglaise : Lien,
  • DbPedia en français à partir de 2012 avec de nombreux outils et tutoriels : Lien
  • DBPedia sur Wikipedia fr : Lien
  • Henri Poincaré via DBpedia : Lien

2.5 Semantically-Interlinked Online Communities (sioc)

Description de certaines communautés et objets tels que des listes de discussion et sites webs : Community, Container, Forum, Item, Post, Role, Site, Space, Thread, UserAccount, Usergroup : Lien

2.6 Organization (org)

Fonctionnement d’un organisme dont des agents sont répartis sur plusieurs sites : Lien

vCards (vcard)

Format de fichier pour l’échange de cartes de visites électroniques créé en 1998 par l’IETF pour l’échange d’informations personnelles et professionnelles par eMail, MMS, messagerie instantanés ou QR code. Défini comme une ontologie par le W3C en 2014 : Lien

2.7 Relationship (rel)

Œuvre de Ian Davis et Eric Vitiello Jr de 2003 à 2010, un vocabulaire pour décrire les relations de parenté, professionnelles et sociales entre les gens, à utiliser conjointement avec FOAF : Lien

2.8 Event (event)

Créé en 2007 par le Centre for Digital Music de Londres : Event (agent, factor/isFactorOf, literal_factor, place, producedIn, sub_event, time), Factor, Product

2.9 Autres ontologies généralistes

  • Wikidata, développé à partir de 2012 par Wikimedia Allemagne, ontologie et base de donnée secondaire rassemblant les informations factuelles de l’ensemble des versions linguistiques de Wikipedia : Lien
  • BabelNet.org Live, doublé d’un moteur multiligue, interrogation du mot Personne : Lien
  • GeoNames (base de données en géographie) : Lien
  • Proton (ptop), une ontologie généraliste (25 classes, 77 propriétés) : Lien; Protonext (pext) étend proton (488 classes, 115 propriétés, 72 individus) : Lien

3. Ontologies plutôt spécialisées métiers

Trois métiers sont considérés à titre d’exemple, mais des ontologies et des bases de connaissances aux formats web de données modélisent la plupart des activités (chimie, architecture, droit, économie, sciences politiques, etc).

3.1 Métiers de la bibliothèque

  • VIAF (personnes et organismes, dictionnaire) : Lien
  • ABES (Agence Bibliographique de l’Enseignement Supérieur), Data IdRef, Autorités et littérature académique (personnes, organismes, articles, livres, thèses) : Lien, sparql end-point : Lien, https://data.idref.fr/endpoint.html
  • BnF (littérature) : data.bnf.fr, Lien sparql end-point, https://data.bnf.fr/opendata
  • Hal (littérature scientifique française), Sparql end-point : Lien
  • Persée (littérature académique en sciences humaines), sparql end-point : Lien
  • Isidore (contenus de corpus de sciences humaines), sparql end-point : Lien
  • The Bibliographic Ontology (bibo), 2009, une ontologie orientée doocumentation liée à FOAF, Dublin Core et Event, sur github Lien1, Lien2, bibo.owl. Thing >
    • Agent (= foaf:Agent, = dcterms:Agent) (contributor, distributor, editor, interviewee, interviewer, issuer, organizer, owner, performer, producer, publisher, recipient, translator)
    • Document (= foaf:Document) (citedBy/cites, editorList, list of contributors, presentedAt, reproducedIn, reviewOf, status, transcriptOf, translationOf)
      1. Article
        • Academic Article
      2. AudioDocument
      3. AudioVisualDocument
        • Film
      4. Book
        • Proceedings
      5. Collection (uri)
        • MultiVolumeBook
        • Periodical
          1. Code
          2. CourtReporter
          3. Journal
          4. Magazine
          5. Newspaper
        • Series
        • Website
      6. CollectedDocument
        • EditedBook
        • Issue
      7. DocumentPart
        • BookSection
        • Chapter
        • Excerpt
          1. Quote
        • Slide
      8. Image (=foaf:Image)
        • Map
      9. LegalDocument
        • Bill
        • LegalCaseDocument
          1. Brief
          2. LegalDecision (reversedBy, subsequentLegalDecision)
        • Legislation
          1. Statute
      10. Manual
      11. Manuscript
      12. Note
      13. Patent
      14. PersonalCommunicationDocument
        • Letter
        • Mail
      15. ReferenceSource (un dictionnaire par exemple)
      16. Report
      17. Slideshow
      18. Specification
        • Standard
      19. Thesis (degree)
      20. Webpage
    • DocumentStatus
    • Event (presents)
      1. Conference
      2. Hearing
      3. Interview
      4. Performance
      5. PersonalCommunication
      6. Workshop
L’ontologie Bibo avec Protégé : Lien
  • Bibframe (bf), 2014 : Un format présenté comme une alternative à MARC, le format de catalogage des bibliothèques : Lien
  • FRBR : Lien (bibliothèques)
  • FRBRoo : Lien, (bibliothèques)
  • Ontologie ISTEX, data.istex.fr (littérature scientifique)
  • Biblissima : Lien, (littérature médiévale)
  • ModSci, Modern Science Ontology; (disciplines scientifiques) : Lien
Ontologie ModSci visionnée avec WebVOWL : Lien

3.2 Métiers des archives, des musées, de l’archéologie, de l’art, de l’histoire

3.3 Métiers de la santé

Phast poursuit son action de diffusion de SNOMED CT en France, 2017 : Lien
  • SNOMED Clinical Terms, ensemble organisé de plus de 300 000 concepts à disposition des acteurs de santé : Lien
  • NCI Thesaurus couvre le domaine du cancer : Lien
  • Unified Medical Language System, NLM : Lien1, Lien2
  • The OBO Foundry, répertoire des ontologies de différents domaines de la biologie et de la médecine : Lien
  • GENEONTOLOGY; le consortium GO un modèle informatique des systèmes biologiques du niveau moléculaire au niveau organisme entier de plusieurs espèces : Lien

Pour aller plus loin

  • Le sens du sens : les ontologies, ce n’est pas (que) de la philosophie ! , Chabot, 2017 : Lien
  • Ontology Alignment Evaluation Initiative: Six Years of Experience, Euzenat, 2011 : Lien
  • Ontology engineering : Lien
Calligraphie de Delphine Malasingne, 2018, citation TBL : Lien

Notes   [ + ]

1. Resource Description Framework; (RDF) Model and Syntax Specification : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *