9 515 mots, temps de lecture estimé 50 minutes.
Depuis quelques années, et en particulier depuis 2001, le mot « ontologie » désigne plusieurs choses, selon que l’on s’adresse à un philosophe ou bien à un spécialiste du web sémantique. En philosophie, l’ontologie (au singulier) est une vaste branche de la métaphysique qui tente de définir ce qui est et caractérise de manière fondamentale un objet d’étude. A partir de 1978, l’usage du terme dans les milieux de l’intelligence artificielle, dans celui des systèmes experts, et enfin en relation avec le web sémantique est régulièrement mentionné. Encore appelées « graphes de connaissance« , ou plus simplement mais de manière assez vague « vocabulaires« , « schémas » (de base de donnée), les ontologies informatiques (au pluriel) rendent possible un ensemble de choses comme : faciliter les échanges de métadonnées entre systèmes distants, optimiser le référencement de sites web par les moteurs de recherche, structurer les classes et propriétés / catégories d’objet et colonnes d’un tableau de données, élaborer des bases de connaissances partagées entre acteurs distants, de diffénrentes disciplines scientifiques.
Si l’on s’intéresse aux origines des ontologies informatiques, des idées émises dès le milieu des années 1950 se sont montrées influentes et continuent de l’être. Historiquement, en 1956, un tout premier colloque avait été organisé à Dartmouth College (Hanover, New Hampshire), sur la côte Est des États-Unis. Le concept d’intelligence artificielle lui-même avait été introduit, volontairement distingué de celui de cybernétique, jugé trop vague et inapproprié. Parmi la vingtaine de mathématiciens et informaticiens présents, les organisateurs McCarthy, Minsky, Rochester, Shannon avaient su mobiliser une petite communauté. Des personnalités comme Allen Newell et Herbert Simon, associées au développeur Cliff Shaw, y avaient présenté leur programme Logic Theory Machine (LT), dédié à la résolution automatique de théorèmes de logique formelle. Il s’agissait alors de mettre au point des algorithmes pour résoudre à l’aide d’un calculateur et d’un algorithme les théorèmes référencés dans le volume II des Principia Mathematica de Whitehead et Russell. Les performances des programmations dites « systématiques » et « heuristiques » y étaient comparées, avec un net avantage pour la seconde méthode, en vue de démontrer de manière programmée une suite de théorèmes.
Deux ans plus tard, en 1958, se déroule au National Physics Laboratory à Teddington – Royaume-Uni, le deuxième congrès sur l’intelligence artificielle. Le titre toujours intriguant en est Mechanization of Thought Processes / Mécanisation des processus de pensée. McCarthy y présente alors ses Programs with Common Sense / Programmes doués de bon sens commun. La résolution automatique des théorèmes retient l’attention plus que jamais. Des origines lointaines et indirectes des ontologies peuvent être sans doute recherchées dans cette présentation de McCarthy, publiée sous forme d’article l’année suivante. Il y est juste question de logique de premier ordre, encore appelée logique des prédicats. Signé D. W. Davies, un premier compte rendu du second colloque sur l’intelligence artificielle parait dans Nature, en janvier 1959. On notera parmi les participants francophones la présences de Lucien Mehl, professeur à l’École Nationale d’Administration. Il intervient sur les apports envisagés de l’informatique dans l’administration publique, en particulier pour améliorer le système fiscal. Son article s’intitule La Cybernétique et l’administration.
- Dartmouth workshop (1956) : https://en.wikipedia.org/wiki/Dartmouth_workshop
- Newell, A., Shaw, J. C. and Simon, H.A. (1957). Empirical Explorations of the Logic Theory Machine. A case Study in Heuristic. Proceedings of the Western Joint Computer Conference, published by the Institute of Radio Engineers, New York, 1957, pp. 218–230, Internet Archive : Lien
- Moor, J. (2006). The Dartmouth College Artificial Intelligence Conference: The Next Fifty Years. AI Magazine, 27(4), 87. https://doi.org/10.1609/aimag.v27i4.1911
- McCarthy, J. (1959). Programs with Common Sense. Proceedings of the Teddington Conference on the Mechanization of Thought Processes : Archives McCarthy
- Davies D. W. Mechanization of Thought Processes. Compte rendu 1959, Nature : https://www.nature.com/articles/183225a0
- Ashby WR. Mechanization of Thought Processes. Symposium at the National Physical Laboratory, 24–27 November, 1958. 2 Vols. H.M.S.O. Pp. 980. Price 50s. Journal of Mental Science. 1960;106(445):1587-1588. doi:10.1192/bjp.106.445.1587-a
- La logique des propositions et des prédicats, pierre_24, Zeste de Savoir, 2020 : Lien
En 1960, McCarthy quitte la côte Est des États-Unis pour gagner Stanford, non loin de San Francisco, où il vient d’obtenir un poste de professeur. Il y fonde le SAIL (Stanford Artificial Interlligence Laboratory), puis il crée un langage nommé Lisp (Zézaiement / List Processing) et le temps passe alors quelque peu dans cette histoire. En 1966, les programmes d’échecs deviennent un sujet à la mode. Il sont supposés servir de modèle à toute forme d’intelligence rationnelle générale. Des théories sur le jeu d’échec fleurissent. En cette période de guerre froide, des tournois à distance opposent des logiciels et leurs concepteurs, soviétiques et américains. Le film « 2001, Odyssée de l’Espace » sort en 1968 et s’inspire de ce fantasme d’un ordinateur tout puissant qui pourrait régir les vies humaines.
Un peu plus d’une dizaine d’année passe encore et nous voici parvenus en 1978. Suite à sa thèse soutenue à Édimbourg (Écosse), sur la question récurrente de la résolution automatique des théorèmes mathématiques, le jeune mathématicien et programmeur Pat Hayes (il est aujourd’hui âgé de 79 ans) se trouve en poste à Genève dans un laboratoire de recherche dont les visées sont la traduction automatique des textes. Dans son mémoire Naive Physics : Ontology for Liquids, Hayes propose de développer des séries d’ontologies, dans l’objectif d’étendre la logique à autre chose que la résolution de théorèmes mathématiques.
La première de ces « ontologies » concerne le comportement physique des liquides. Ce choix résulte, précise l’auteur, du défi que représente pour un « formalisateur » cet état de la matière : les liquides n’ont pas de forme définitive, ils peuvent se diviser, fusionner et bouger de « manière mystérieuse ». Une logique de premier ordre (logique des prédicats préconisée par McCarthy) est proposée pour résoudre, aussi bien les théorèmes mathématiques, que modéliser le comportement de phénomènes physiques comme les liquides. Les années suivantes, deux autres manifestes suivent, publiés par le même Hayes, alors en poste à Rochester (État de New-York) : The naive physics manifesto en 1979 et The second naive Manifesto en 1983. Pour Hayes, il devient plus que temps que l’intelligence artificielle s’attaque à des problèmes qui ne sont pas des jeux stupides, pourrait-on résumer de manière quelque peu réductive. Avec l’arrivée d’internet en 1976, des échanges par mail vont permettre de faciliter grandement les échanges entre chercheurs actifs sur des machines distantes.
Dans le sillage de McCarthy et Hayes, de nombreuses et influentes recherches sont menées à Stanford à la fin des années 1980. A partir de 1987, la mise au point par Marc Musen, de successives versions du logiciel Protégé vient confirmer l’usage du terme « ontologie« , dans le domaine alors innovant des systèmes experts. Menés au Knowledge Systems Laboratory de Stanford par Tom Gruber, Richard Fickes et d’autres, les avancées concernent la modélisation des connaissances pour les systèmes experts. L’idée d’une intelligence générale est abandonnée, mais non celles de formes particulière « d’intelligence ». Les ontologies apparaissent alors comme des vocabulaires susceptibles de structurer les données d’un domaine particulier de la connaissance. La méthode serait plus portables que les tables définies dans les traditionnelles bases de données relationnelles. Des raisonnements portant sur des connaissances factuelles pourraient être ainsi entrepris. Dès sa conception, Protégé embarque donc des moteurs d’inférence : des raisonnements logiques sont attendus en retour de la création de bases de connaissances.
En 1991, les apports du web alors naissant vont se montrer cruciaux pour les travaux de Tom Gruber sur les systèmes expert. Financé par l’ARPA, ce dernier crée une plateforme web nommée Ontolingua Server. Un environnement collaboratif web est créé, pour parcourir, élaborer, éditer collaborativement, modifier, échanger et se servir d’une variété d’ontologies. Jusqu’en 1994, Gruber contribue à formaliser le langage KIF (Knowledge Interchange Format) dédié à l’édition des ontologies et au fonctionnement de sa plateforme. Par ailleurs, les travaux de Ramanathan V Guha, co-créateur et actif sur le projet Cyc d’intelligence artificielle, puis développeur chez Apple (1994-1997) et enfin développeur du navigateur Netscape (1997-1999) ont également exercé une influence sur l’élaboration des formats du web sémantique.
Le W3C (World Wide Web Consortium) s’empare du sujet et définit la première version du format RDF (Resource Description Format) en 1997. Guha s’était saisi du concept d’ontologie de Hayes et McCarthy dès 1994. Puis en 2001, d’autres acteurs prennent le relai avec, parmi eux, Tim Berners-Lee lui-même, devenu directeur du W3C en 1994. Les principaux concepts de web sémantique sont dévoilés de manière médiatique par le trio Berners-Lee (W3C), James Hendler (DARPA en 1994), Ora Lassila (Nokia en 1994). Les ontologies se montrent évoquées dans l’ensemble des textes fondateurs du web sémantique. Des bases de données « sémantiques » (orientées graphe, triplestore) deviennent développées, structurées par une variété d’ontologies, parmi lesquelles un certain nombre vont devenir « populaires », fréquemment utilisées par une variété d’acteurs dans différents contextes, partagées par de nombreuses bases sémantiques, éventuellement de manière partielle. C’est donc l’une des forces de la standardisation apportée par le W3C, que de reprendre à son compte des notions émises antérieurement par d’autres, et de les reformuler en plusieurs formats mis au point de manière consensuelle. Normalisés par le W3C, les formats d’échange des ontologies et des données structurées par elles comprennent notamment RDF (Resource Description Format), RDFS (RDF Schema), OWL2 (Web Ontology Language 2), Notation3.
Un historique plus détaillé de la notion d’ontologie, avant et suite à l’apparition successive d’Internet (1972), du web (1989) et du web sémantique (2001), est ici proposé. La logique des triplets (sujet – prédicat – objet) et les raisonnements possibles avec ceux-ci est rappelée. Une liste d’applications générales des ontologies conclut ce billet.
- Les sémantiques du mot « Ontologie »
- 1.1 L’IA de première génération
- 1.2 Les systèmes experts prennent la parole
- 1.3 Des ontologies sur le web, puis le web sémantique
- Éléments de logique descriptive
- Annotation des valeurs
- Plusieurs possibilités pour renseigner une valeur
- Formats de sérialisation
- 5.1 Extensible Markup Language (XML), 2001
- 5.1.1 Resource Description Framework (RDF), 1999
- 5.1.1.1 RDF Schema (RDFS)
- 5.1.1.1.1 OWL
- 5.1.1.1 RDF Schema (RDFS)
- 5.1.1 Resource Description Framework (RDF), 1999
- 5.2 Turtle
- 5.3 Notation3
- 5.4 JSON-LD
- 5.5 Graphe
- 5.1 Extensible Markup Language (XML), 2001
- Applications
1. Les sémantiques du mot « Ontologie »
« Ontologie » désigne en premier lieu une sous-discipline de la philosophie et plus particulièrement de la métaphysique. Il est forgé à partir du grec ontos qui signifie « étant », et logos pour « discours ». Il s’agit donc de manière fondamentale d’un discours sur ce qui est et qui existe, qu’il est possible de décrire et de caractériser par la pensée d’abord, et à l’aide du langage ensuite. La thématique se trouve abordée par Aristote, notamment dans le chapitre gamma de son livre Métaphysique. De nos jours et en philosophie, le terme reste fréquemment employé au singulier, accompagné de l’objet dont on tente d’étudier les caractéristiques.
Un exemple d’étude philosophique récente peut être choisi. Dans son article intitulé « L’ontologie du numérique, Entre mimésis et réalité », Servanne Monjour présente un numéro complet de la revue Sens [Public]. Quinze philosophes publient chacun un article sur le numérique, la nature et les propriétés premières et intrinsèques des objets étudiés. Dans le même numéro, Lucie Roy intitule son article sur les images numériques « Une ontologie ou une esthétique numérique ? », en se référant fréquemment à Martin Heidegger. On notera, dans le domaine de la philosophie, chez Descartes, Spinoza, Leibnitz, Kant et Gödel, la notion d’argument ontologique qui correspond à la recherche d’un argument logique visant à prouver l’existence de Dieu.
- Monjour S. (2017). L’ontologie du numérique, Entre mimésis et réalité. Sens public 2017 : https://doi.org/10.7202/1048866ar
- Roy, L. (2017). Une ontologie ou une esthétique numérique ? Sens public : https://doi.org/10.7202/1048865ar
1.1 L’IA de première génération
Les travaux de Patrick Hayes qui nous intéressent datent de 1978, alors que ce dernier se trouve en poste à l’Institut pour les Études Sémantiques et Cognitives de l’Université de Genève. Dans une tentative de modélisation à l’aide de la logique formelle du bon sens commun cher à son mentor McCarthy, Patrick Hayes publie un simple rapport « Naive Physics : Ontology for Liquids ». Et il précise : un liquide se définit premièrement par les espaces qui peuvent le contenir, localisations dans lesquels des choses se produisent. Les « histoires » auxquelles les liquides prennent part sont alors des extensions temporelles de parties définies de l’espace.
Cette tentative de définir une « ontologie naïve », susceptible de modéliser le comportement physique des liquides, prolonge des idées initialement publiées par McCarthy dans son article de 1959 intitulé « Program with Common Sense » / un programme informatique doué de bon sens commun. Dans cet article, des précisions étaient apportées à une présentation faite l’année précédente, en 1958, dans le cadre d’une conférence « Mechanisation of Thought Processes / la mécanisation des processus de la pensée » tenue au Royaume-Uni. Dans un esprit très cybernétique, une première étape de l’intelligence artificielle débute, simultanément au MIT et dans les laboratoires de mathématique appliquée d’Édimbourg, Écosse.
A l’automne 1962, McCarthy est invité à rejoindre en tant que professeur à plein temps la Division informatique du Département de mathématique de Stanford, sur la côte Ouest. Il y fonde en 1963 le SAIL (Stanford Artificial Intelligence Laboratory). Il va en ces lieux poursuivre un ensemble de travaux et de coopérations et contribuer à fonder une véritable communauté de l’intelligence artificielle, des systèmes experts et de la modélisation des raisonnements sur les connaissances factuelles.
- Hayes P. (1978). Naive Physics : Ontology for Liquids. Rapport n°35. Fondazione Dalle Molle, 1978 : Lien
- McCarthy J. (1959). Programs with common sense. In Mechanisation of Thought Processes Vol I, Proceedings of the Symposium of the National Physics Laboratory, Her Majesty’s Stationery Office, London, UK, pp. 77-84
- Nilsson N. J. (2012). John McCarthy 1927–2011, National Academy of Science : Lien
En 1969, à l’occasion d’un passage de Patrick Hayes au SAIL, un article est publié conjointement par les deux chercheurs et intitulé « Some philosophical problems from the standpoint of artificial intelligence / Des problèmes philosophiques de point de vue de l’intelligence artificielle ». Il parait dans le volume 4 de Machine Intelligence chez Edinburgh University Press. Il y est question des difficultés rencontrées pour mettre au point un programme susceptible de mimer l’intelligence générale humaine. Dans ce même volume, Patrick Hayes écrit également avec Robert Kowalski, alors en fin de thèse à Édimbourg, un autre article : « Semantic trees in automatic theorem-proving / Les arbres sémantiques dans la probation automatique des théorèmes ». Dirigée par Bernard Meltzer, l’unité d’affiliation de Hayes en Écosse est alors nommée Metamathematical Unit. Les travaux portent sur la démonstration automatique de théorèmes mathématiques, point précédemment abordé par Newell et Simon en 1956.
- McCarthy, J., and Hayes, P. J. (1969). Some philosophical problems from the standpoint of artificial intelligence. In Meltzer, B., and Michie, D., eds., Machine Intelligence 4. Edinburgh: Edinburgh University Press. 463–502 : Archives McCarthy
- Kowalski, R., Hayes, P.J. (1969). Semantic Trees in Automatic Theorem-Proving. In: Siekmann, J.H., Wrightson, G. (eds) Automation of Reasoning Volume 2. Symbolic Computation. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-81955-1_13
Au début des années 1970, d’intéressantes nouveautés apparaissent du côté des machines. Le « temps partagé » ou « téléinformatique », en anglais « time sharing » se répand. Un ordinateur central, de même que son système d’exploitation et des langages de programmation évolués, peuvent être utilisés simultanément par plusieurs utilisateurs, éventuellement localisés à distance, reliés à un seul et même ordinateur central. En Californie, des expériences peu médiatisées sont menées pour faire transiter les commandes entre ordinateurs centraux par des réseaux téléphoniques interconnectés à l’aide de modems.
L’information est alors découpée en paquets par des routeurs (des ordinateurs dédiés à cette tâche). Elle est transmise et réassemblée à la réception. Michel Élie relate dans un bref récit l’ambiance particulière qui régnait alors à l’UCLA (University of California Los Angeles), en 1969 et 1970, au sein du groupe Network Working Group (NWG) d’Internet, dans un contexte de vive protestation contre la guerre au Vietnam et de conception résolument ouverte et libre des organisations. L’UCLA rassemble sur un même campus des enseignements de toutes disciplines : littéraires, scientifiques, médicales, artistiques, sportives ou de gestion, informatique, entre lesquelles des coopérations se produisaient fréquemment.
- Élie, M. (2002). Témoignages sur l’internet et les réseaux, par Michel Élie, Ingénieur, architecte réseau à la CII puis à CII-HB, feb-patrimoine.com : Archives de Bull
En 1970 et à Édimbourg toujours, Robert Kowalski soutient sa thèse sous le titre « Studies in the completeness and efficiency of theorem-proving by resolution / Études sur la complétude et l’efficacité de la probation des théorèmes par résolution ». Hayes l’accompagne avec « Semantic trees: New foundations for automatic theorem-proving / Les arbres sémantiques: Nouveaux fondements pour la probation automatique des théorèmes ». Cette période est l’occasion pour Hayes de nouer des contacts, notamment avec Gordon Plotkin (un mathématicien théoricien) et Bruce D. Anderson (un programmeur de Stanford intéressé par la philosophie ? Difficile de se prononcer… Qui est il ?). Les langages PLANNER et Micro-Planner (des langages de l’IA des années 1970) sont appris lors d’un deuxième séjour d’été au SAIL de Stanford, effectué de nouveau à l’invitation de McCarthy.
- Kowalski Robert, Thèse 1970 Studies in the completeness and efficiency of theorem-proving by resolution. Edinburgh Research Archive
- Hayes, Patrick, J. Thèse 1973. Semantic trees: New foundations for automatic theorem-proving : Edinburgh Research Archive
- Andersen, Bruce D. et Al., 1974. After Leibniz… Discussions on Philosophy and Artificial Intelligence. http://i.stanford.edu/pub/cstr/reports/cs/tr/74/411/CS-TR-74-411.pdf
Avec les bases de connaissance à bon sens commun (Commonsense knowledge) de McCarthy et l’ontologie naïve du comportement des liquides écrite en 1978, un formalisme logique se dessine quelque peu, dans une tentative de définition du comportement d’un contenant et en conséquence de celui du contenu. Les exemples donnés par Hayes dans son ontologie des liquides incluent un fleuve (le Rhône), un liquide dans un verre. Des logiques de premier ordre (calcul des prédicats) qui prévalent à la fois pour l’écoulement d’un liquide et pour la démonstration d’un théorème deviennent encodées en Lisp.
L’année suivante en 1979, Hayes se montre à l’origine d’un manifeste « The naive physics manifesto / Le manifeste de la physique naïve ». Il parait sous forme d’un chapitre du livre « Expert Systems in the Electronic Age », toujours chez Edinburgh University Press. Parmi les auteurs notables, McCarthy, Edward A. Feigenbaum (créateur de Dendral, le premiers système expert, dédié à l’analyse des résultats de spectrométrie de masse), David H. D. Warren, John Alan Robinson peuvent être cités. Les recherches visent à mettre au point des systèmes experts fonctionnels, avec des ambitions plus limitées que celles envisagées par les « intelligences dites générales » de première génération.
- Hayes, Patrick, J. 1979 “The Naive Physics Manifest”, in D. Michie, ed., Expert Systems in the Micro-Electronic Age, Edinburgh: Edinburgh University Press, 242-70, as repr. in Boden, ed., 171-205.
- Hayes, Patrick J. 1985 “The Second Naive Physics Manifesto”, in Hobbs and Moore, eds., 1-36.
1.2 Les systèmes experts prennent la parole
Cependant, les « ontologies naïves » de Hayes se trouvent mentionnées par McCarthy dans un compte-rendu de communication, mis en ligne en 1996, publié en HTML 2.0. L’article « Some Expert System Need Common Sense / Certains systèmes experts ont besoin de bon-sens commun», cite conjointement le terme ontology, de même que le système expert MYCIN. Développé par Bruce Buchanan et Edward Shortliffe de 1976 à 1984, ce programme ne fut cependant jamais utilisé extensivement. Il tournait alors sur un mainframe en temps partagé, accessible à l’aide d’ARPANET. Cependant, des liens sont tissés entre les membres du laboratoire d’informatique de Stanford et ceux de l’école de médecine voisine, dans le but de mettre au point une variété de systèmes experts, dédiés non à la spectrométrie et à la chimie, mais à la médecine et à la pharmacie.
Au niveau matériel, le début des années 1980 est marqué par de très remarquables progrès dans le domaine des matériels informatiques pour les particuliers. Les petites entreprises comme le grand public ont enfin accès à une machine individuelle pour un cout raisonnable. Trois machines, l’Apple II d’Apple, le PET 2001 de Commodore et le TRS-80 par Tandy RadioShack se vendent à des millions d’exemplaires. Les marques et les modèles foisonnent à cette époque, mis en vente dans de petites boutiques spécialisées, bien souvent, pour la France, localisées à Paris.
Une presse spécialisée cible émerge, qui s’adresse aux informaticiens et aux étudiants. Des logiciels innovants se développent dans un certain foisonnement. Une souris facilite la navigation entre plusieurs fenêtres et les modèles vendus sont de la marque IBM et Compaq, une marque créée au Texas en 1982 et dont les produits rencontrent un succès certain.
Cependant, une station de travail loin d’être grand public fait aussi parler d’elle, sur les campus anglo-américains. De 1985 à 1996, sont diffusés en plusieurs versions la machine NeXT Cube. Mises au point par Steve Jobs, alors éjecté d’Apple, et son équipe dans l’objectif de toucher plus spécifiquement l’enseignement supérieur et les entreprises à la recherche de solutions innovantes (et onéreuses). Les ordinateurs personnels NeXT reprennent un ensemble de fonctionnalités d’UNIX BSD (Berkeley Software Distribution) : système d’exploitation multi-utilisateur, multi-fenêtre développé en Californie, à l’origine de NeXTSTEP. La souris et les fenêtres du Mac II sont aussi reprises de l’aventure Apple. Unix apporte une variété de fonctions.
A partir de 1987, les chercheurs de la Faculté de Médecine de Stanford, parmi lesquels Marc Musen, construisent un nouveau système expert, descendant lointain de MYCIN, nommé ONCOCIN, en vue de fournir des conseils aux médecins oncologues, sur les traitements à apporter aux patients en traitement de chimiothérapie. Le système expert dépend d’une seule ontologie préalablement mise au point. Il est alors souhaité le développement d’un logiciel supportant une variété d’ontologies, dans le but de faire fonctionner le même système expert sur des problématiques différentes.
En 1989, la première version du logiciel Protégé de Musen tourne sur machine Xerox et reste programmée en Lisp. Le seul domaine modélisé est celui de la chimiothérapie des cancers. Au fil des années, d’autres versions de Protégé suivent, avec comme étape remarquable la sortie de PROTÉGÉ-II en 1994, spécialement fonctionnel sur ordinateur personnel NeXT, celui-là même sur lequel les premières applications du web furent mises au point au CERN de Genève par Tim Berners-Lee et Robert Cailliau. À partir de l’an 2000, Protégé évolue grandement. Une version peut être installée sur PC, tournant sous Windows 1995. De multiples ontologies peuvent être importées et exportées. Le langage Java devient adopté pour le développement. Protégé est mis au point et diffusé gratuitement, dans ce même esprit de libre échange des codes informatiques, remarqué par Michel Élie dès les années 1970.
- Rothenfluh T. E., Egar, J. (1994). PROTÉGÉ-II Overview. Internet Archive
- Thomas E. Rothenfluh, John H. Gennari, Henrik Eriksson, Angel R. Puerta, Samson W. Tu, Mark A. Musen, (1996) Reusable ontologies, knowledge-acquisition tools, and performance systems: PROTÉGÉ-II solutions to Sisyphus-2, International Journal of Human-Computer Studies, Volume 44, Issues 3–4, Pages 303-332 : Lien
- Mark A. Musen (2000), Ontology-oriented design and programming, Computer Science : Lien
- Mark A. Musen (2015), the Protégé Team. The Protégé Project: A Look Back and a Look Forward. AI Matters. 2015 Jun; 1(4): 4–12 : Lien
- Introduction à Protégé, Technologies pour la gestion des connaissances, INF 6070, Université Téluq, Québec : Lien
Pendant ce temps, au Texas, l’heure reste à l’informatique centralisée. Le projet Cyc à partir de 1984 à MCC, Austin Texas, Douglas Lenat , Ramanathan V. Guha jusqu’en 1994. TODO…
A cette époque, l’apparition du web (1990) de même que l’avènement de la micro-informatique stimulent grandement les imaginations et les échanges. Le début des années 1990 se montre également important pour Patrick Hayes. Celui-ci quitte l’Université de Rochester pour gagner la Floride. Un institut de recherche à but non lucratif y est créé, le Institute for Human and Machine Cognition, campus de l’Université de Floride Ouest. Publié en 1978 sous forme de simple rapport, l’article de Hayes sur les ontologies naïves devient enfin imprimé, quelque douze ans postérieurement à son écriture, dans l’ouvrage collectif de 1990 Readings in Qualitative Reasoning About Physical Systems, Chapitre 6 Automating Quantitative Analysis. Un autre de ses articles The Second Naive Physics Manifesto, parait dans le même volume.
Né en 1944, Patrick Hayes est donc programmeur sur Lisp, a enseigné la philosophie et occupe des fonctions éditoriales dans le journal AI Magazine. En 1991, il prend la présidence pour deux ans de la société savante américaine Association for the Advancement of Artificial Intelligence, fondée dès 1979 par un groupe de pionniers américains de première génération, parmi lesquels Allen Newell, John McCarthy, Marvin Minsky et d’autres. Bien introduit dans les groupes actifs sur les systèmes experts et au W3C, Hayes coécrit en 2008, à l’occasion des 80 ans de McCarthy : On John McCarthy’s 80th Birthday, in Honor of His Contributions. Les raisonnements qualitatifs sur certains systèmes physiques deviennent possiblement modélisés.
- Readings in Qualitative Reasoning About Physical Systems, Hayes : Lien
1.3 Des ontologies sur le web, puis le web sémantique
Mais revenons, si vous le voulez bien à Stanford en 1989, pour préciser quelques aspects chronologiques. Tom Gruber et le professeur Thomas Fikes au Knowledge Systems Lab de Stanford s’activent. Des travaux sont entrepris en vue de rendre les ontologies réutilisables, possibles à assembler, à personnaliser et à étendre. Un langage standardisé de représentation des connaissances est mis au point de 1990 à 1998, par Gruber et Fickes essentiellement, nommé KIF (Knowledge Interchange Format).
Le serveur d’ontologies de Gruber rencontre le succès, pour des applications qui vont de la gestion de bases de données bibliographiques à la physique et aux mathématiques, plutôt relatif à la modélisation des phénomènes quantitatifs en physique, à l’image des travaux de Hayes. Tout une série d’ontologies est mise au point, rendue accessible sur le web, donnant lieu à plusieurs publications.
En 1994, Gruber quitte le groupe (fin de contrat ?) pour s’orienter vers le développement d’une application de messagerie, financé par un autre programme du DARPA. Il devient embauché comme directeur de la technologie en 2007 par la société SIRI Inc, à l’origine du logiciel Siri, racheté ultérieurement par Apple.
- Knowledge Systems Lab (KSL), vue de 1998 : Lien
- ARPA Knowledge Sharing Effort public library, vers 1990 : Lien
- Library of Ontologies. Knowledge Systems Lab, 1993, 1994 : Lien
1994, W3C, Netscape navigator, RSS, Guha et RDF. TODO
1995 Dublin Core. TODO
D’autres acteurs se saisissent un peu plus tardivement de ces fameuses ontologies, pour les porter dans le contexte du web alors naissant, parmi lesquels Jeff Heflin et James Hendler. Le cadre des recherches est celui du Rensselaer Polytechnic Institute, localisé dans l’État de New-York. Débutée en 1996, cette autre initiative préfigure l’usage des ontologies pour optimiser le référencement des pages du web par les moteurs de recherche. Simple HTML Ontology Extensions (SHOE) constitue une tentative de normalisation expérimentale, menée essentiellement par Heflin, alors doctorant à l’Université de Maryland et placé sous la direction de James Hendler.
Une extension d’HTML est mise au point et proposée de 1996 à 2001, en vue d’indexer de manière sémantique les pages du web. En 2000, Heflin propose l’usage dans l’optique du SEO d’un ensemble d’ontologies compatibles entre elles, susceptible de décrire une variété d’entités (Document, Personne, Organisation, Encéphalopathie spongiforme, Bière ! ) décrites dans les pages du web. La thèse est soutenue en 2001 et intitulée Towards the Semantic Web: Knowledge Representation in a Dynamic, Distributed Environment. La notion de web sémantique alors nouvellement créée par Tim Berners-Lee est reprise dans le titre.
- SHOE project, Jeff Heflin, 1996-2001 : Lien
- SHOE project, SHOE Ontologies, Jeff Heflin, 2000 : Lien
- Heflin, J. Towards the Semantic Web: Knowledge Representation in a Dynamic, Distributed Environment. Ph.D. Thesis, University of Maryland, College Park. 2001 : Lien
En effet, à partir de 1998, un certain battage médiatique devient organisé par Berners-Lee et plusieurs autres acteurs, autour du concept innovant de « web sémantique ». Des notes de TBL sont tout d’abord rédigées en HTML à partir de 1996, sur une sorte de blog public, nommé Design Issues; Architectural and philosophical points. Celles-ci rendent compte tout d’abord de réflexions sur le format RDF (Ressource Description Framework), dont la première version sort à l’état de brouillon en 1997. Les origines du langage XML seront évoquées un peu plus loin.
Lors de la conférence XML 2000 World, qui se déroule du 6 au 8 septembre 2000 à Boston, le sujet du « web sémantique » devient évoqué en conférence et rencontre un franc succès. En collaboration avec le W3C, les États-Unis par l’intermédiaire du DARPA (Defense Advanced Research Projects Agency) débutent à cette époque un projet intitulé DARPA Agent Markup Language (DAML). James Hendler (professeur de Jeff Heflin) prend dans un premier temps la direction du projet.
Un système d’intelligence artificielle appuyé sur le web doit pouvoir être mis au point. Des moteurs de recherche, personnels ou collectifs, plus efficaces qu’AltaVista ou Yahoo! alors seuls en ligne, ou bien que les spiders (web crawler) fonctionnant comme des programmes personnels, sont attendus de ces initiatives. Le nombre d’internaute était alors passé de quelques dizaines d’individus en 1995 à environ 400 millions en cinq ans seulement. Attirant les investisseurs, l’époque sera ultérieurement nommée « bulle Internet« .
- Tim Berners-Lee. Design Issues. Architectural and philosophical points. Semantic Web Road map. 1998 : Lien
- XML 2000 World Conference, Boston, 5-8 septembre 2000 : Lien
- The DARPA Agent Markup Language Homepage, 2000-2004 : Lien
En mars 2001, Hans-Georg Stork et Dieter Fensel, représentants mandatés au nom de l’Union Européenne se joignent au projet du DARPA américain. Mark Musen (Harvard, Protégé, ONCOCIN) saisit l’opportunité et publie conjointement avec Dieter Fensel (alors professeur associé à la division de mathématique et d’informatique de l’Université Libre d’Amsterdam) l’éditorial « The Semantic Web: A Brain for Humankind ». Des financements sont apportés par le programme européen CORDIS IST (Information Society Technologies).
Présidé par Mike Dean, ingénieur à BBN Technologies (Bolt, Beranek and Newman), une société de service que l’on retrouve derrière plusieurs réalisations techniques à l’origine d’Internet, un comité conjoint US/UE est créé. Le groupe de travail est initialement constitué de 16 membres, parmi lesquels on retrouve Patrick Hayes, vétéran des systèmes experts et programmeur en Lisp, actif au sein de l’AAAI, ainsi que Dan Connolly (alors employé du W3C), Daniel Brickley, futur employé du W3C puis de Google (co-créateur de RDF, RDFS, FOAF, Geo, Schema.org, SKOS, etc).
- Mark Musen, Dieter Fensel. The Semantic Web: A Brain for Humankind. IEEE Intelligent Systems. Vol 16, 2, mars-avril 2001: Lien
- Eric van der Vlist. DAML et OIL intègrent W3C XML Schema. <XML>fr, avril 2001 : Lien
- Joint US/EU ad hoc Agent Markup Language Committee, daml.org, avril 2001 : Lien
La création de ce comité US/EU est suivi par la publication en avril 2001, dans Nature, de « Publishing on the semantic web », signé de Tim Berners-Lee et James Hendler. Puis en mai 2001, parait l’article « The Semantic Web » dans Scientific American par Tim Berners-Lee, James Hendler, Ora Lassila.
Un terme nouveau est proposé pour désigner de manière unique plusieurs formats, sur lesquels des logiciels, des applications et des agents (les robots d’indexation des moteurs de recherche) vont pouvoir s’appuyer. Les articles s’étendent sur la description du format RDF (Resource Description Framework) nouvellement mis au point avec le concours de Pat Hayes, sur les ontologies et ce qu’on peut espérer en obtenir. Il est précisé « RDF peut utiliser la syntaxe XML ainsi que les URI pour spécifier des entités, des concepts, des propriétés et des relations ».
Trois formats fondateurs du W3C se montrent alors à cette époque publiés : HTML en versions 3.2 (1997), XML 1.0 (1996) et RDF 1.0 (1997). Les outils mis à disposition sont des éditeurs d’ontologies parmi lesquels OntoEdit (Institute AIFB, Université de Karlsruhe, un portail sémantique est créé), OILed (Université de Manchester), Protégé (Stanford), un raisonneur ou moteur d’inférence FaCT (Fast Classification of Terminologies). Les principales applications attendues concernent la gestion des connaissances, les bibliographies scientifiques, le commerce électronique à développer, l’administration des entreprises, les raisonneurs et systèmes experts.
- Tim Berners-Lee, James Hendler. Publishing on the Semantic Web. Nature, April 26 2001 p. 1023-1025
- Tim Berners-Lee, James Hendler, Ora Lassila. The Semantic Web. Scientific American, mai 2001, Archive : Lien
ONTOLOGIES : Des collections d’assertions, écrites dans un langage tel que RDF, qui définissent les relations entre concepts et spécifient les règles logiques qui permettent d’effectuer des raisonnements sur ceux-ci. Les ordinateurs vont « comprendre » la signification des données sémantiques présentes dans une page Web en suivant les liens vers les ontologies spécifiées.
Tim Berners-Lee, James Hendler, Ora Lassila. « The Semantic Web », 2001
Publié par le W3C en 2005 sous une forme améliorée, un graphique célèbre -le layer cake– résume les rôles respectifs des divers formats du web sémantique : RDF, RDFS (RDF Schema), OWL, plus tardivement SPARQL. On trouve à la base de cet empilement et au plus proche des machines et réseaux les (URI/IRI), au centre du dessin les ontologies exprimées en OWL (Web Ontology Language) et au sommet le navigateur et les logiciels, utilisés par les internautes, accompagnés de trois termes Logic, Proof (la preuve) et Trust (la confiance). RDF et les ontologies permettent aux concepteurs de sites web de décrire eux-même les contenus de leurs propres pages web, pour les faire mieux connaitre aux agents (robots d’indexation) et in-fine aux internautes.
A partir de 2004, les formats du W3C (RDF, OWL), deviennent implémentés dans Protégé, l’outil personnel initialement créé par Marc Musen, dédié à la mise au point d’ontologies et aux raisonnements possibles avec celles-ci.
Dans ce fameux projet DAML US/CEE initié en 2000, l’acronyme DAML+OIL (DARPA Agent Markup Language + Ontology Inference Layer) devient rapidement abandonné (à partir de 2002) par les membres du groupe du W3C en charge d’établir les spécifications. L’acronyme OWL pour Web Ontology Language devient préféré. Ce format générique RDF dans lequel les ontologies peuvent être formulées de manière standard s’impose en plusieurs versions (OWL 2 en 2009). Le nom repose sur un petit jeu de mot en anglais : Owl signifie également la chouette, oiseau traditionnellement associé à Athéna, déesse protectrice de l’Athènes antique, symbole pour les athéniens de la sagesse et du savoir.
- Applied Ontology (2005-), IOS Press. Le journal fondé par Marc Musen et Nicola Guarina : Lien
- The International Association for Ontology and its Applications (2011-), History of IAOA : Lien
2. Éléments de logique descriptive
Peut-être pouvons nous rentrer un peu plus dans les détails de ce qu’est ontologiquement (au sens philosophique) une ontologie informatique sur le web sémantique. Identifiées par leur espace de nom (un identifiant qui prend la forme d’une URL), héritage de XML, les ontologies permettent d’ordonner les métadonnées descriptives des pages web d’une bases sémantique. Des notices peuvent décrire de manière normalisée des entités de différentes natures. Une logique purement descriptive se montre alors mise en œuvre.
L’idée principale d’une base sémantique est que toute déclaration relative à un objet, une peinture, un livre, un lieu, une personne, un organisme, un mot-clé, un événement, peut être réduite à une notice, dans laquelle des séries de triplets décrivent l’objet. Un triplet simple prend la forme SPO (« sujet« , « prédicat« , « objet« ), établissant ainsi une relation entre le sujet décrit, la propriété et la valeur telle qu’enregistrée dans la base. On appelle assertion un couple propriété / valeur assigné à un élément et dédié à sa description. Des formes de connaissances élémentaires, relatives à une entité, se trouvent ainsi référencées, possiblement visualisées sous forme de graphes, dans lesquels les nœuds sont les entités et les arêtes sont les classes et les propriétés.
Cinq exemples significatifs d’assertions sur des éléments de diverses natures sont choisis : 1/ (« Aristote », « Est du Type », « Être humain »), 2/ (« Métaphysique – livre d’Aristote », « Est du Type », « Livre »), 3/ (« Métaphysique – livre d’Aristote en français », « a pour auteur », « Aristote »), 4/ (« Éditions Flammarion », « est l’éditeur de », « Métaphysique – livre d’Aristote en français »), 5/ (« Éditions Flammarion », « Est du Type », « Éditeur »).
Dans les triplets 1, 2 et 5, la propriété « Est du Type » joue un rôle tout à fait particulier. Elle énonce la classe de l’entité à décrire. Les valeurs énoncées sont respectivement 1/ « Être humain », 2/ « Livre », 5/ « Éditeur ». Cette propriété pourrait être verbalisée en français et au choix par : « Est du Type », « Est une sorte de », « Est une instanciation de », « A pour Classe« .
Du choix de la classe découlent les propriétés pertinentes, ainsi les cardinalités, c’est à dire le nombre de fois qu’une même propriété est renseignée. Pour la date de naissance d’un individu, la cardinalité est de 1, par exemple. Un centre d’intérêt d’une personne peut être renseigné à l’aide de plusieurs assertions, dont le nombre et la valeur peut se montrer arbitrairement ou précisément défini, selon la politique éditoriale menée dans une base.
Les triplet 3 et 4 de l’exemple décrivent des propriétés standards d’un livre (« a pour auteur » qualifie spécifiquement un livre ou une œuvre) et d’un éditeur (« est l’éditeur de » qualifie un éditeur et une liste de livres édités peut ainsi être retrouvée).
On remarque aussi le caractère bijectif des triplets. Bien que verbalisées différemment, les deux déclarations suivantes se montrent logiquement identiques : 3/ (« Métaphysique-livre d’Aristote », « a pour auteur », « Aristote ») et 6/ (« Aristote », « est l’auteur de », « Métaphysique-livre d’Aristote »). « Aristote » se montre dans le premier cas « objet » et dans l’autre « sujet ». Une politique éditoriale d’une base doit déterminer ce qui est décrit prioritairement : le livre ou la personne.
Des inférences peuvent également être émises. Dans nos exemple, on déduit des assertions 3/ et 4/ le triplet nouveau 7/ (« Aristote », « a pour éditeur », « Éditions Flammarion »), ou bien encore le triplet équivalent 8/ (« Éditions Flammarion », « est un éditeur de », « Aristote »).
Petite précision d’importance : dans le cadre du web sémantique, ces raisonnements à base de triplets et de graphes sont faits non sur des énoncés simples, mais sur des IRI (Internationalized Resource Identifier), une URL particulière, standard d’Internet, qui sert à identifier de manière unique un élément ou une propriété dans une base sémantique.
Des exemples d’IRI et de notices descriptives d’Aristote dans des bases sémantiques sont : http://www.wikidata.org/wiki/Q868 (Wikidata), https://data.biblissima.fr/w/Item:Q1733 (Data Biblissima), https://data.bnf.fr/ark:/12148/cb13091331s (data.bnf.fr), https://www.idref.fr/026690276 (IdRef), https://dbpedia.org/page/Aristotle (DBpedia, anglais), http://fr.dbpedia.org/page/Aristote (DBpedia, français), https://www.google.com/search?kgmid=/m/0gz_ (Google Knowledge Graph), etc.
La propriété « Lieu de naissance » se montre également identifiée par un IRI https://www.wikidata.org/wiki/Property:P19 (Wikidata), https://dbpedia.org/ontology/birthPlace (DBpedia), dans « Schema.org » par https://schema.org/birthPlace. La ville antique de Stagire, lieu de naissance d’Aristote, est également caractérisée dans une variété de bases. Parmi celles-ci https://www.wikidata.org/wiki/Q846127 (Wikidata), https://dbpedia.org/page/Stagira_(ancient_city) (DbPedia), https://www.geonames.org/11396028/ (GeoNames), https://pleiades.stoa.org/places/501625 (PLEIADES – une base de donnée sur les lieux de l’antiquité).
Tout le monde peut en théorie construire une base sémantique susceptible de devenir un référentiel largement utilisé et connu. Dans la pratique, les choses se compliquent ! Et la base ouverte massivement participative Wikidata sert souvent de référentiel partagé entre bases sémantiques distinctes : Stageira (Q846127). Le terme y est référencé en une cinquantaine de langues, géolocalisé, identifié dans une vingtaine de bases et d’encyclopédies numériques. L’information ainsi obtenue peut être jugée comme digne de confiance.
3. Annotation des valeurs
Certaines bases sémantiques, comme par exemple Wikidata, prévoient la possibilité d’annoter les assertions à l’aide d’une ou de plusieurs propriétés. Wikidata distingue deux catégories d’annotations de cardinalité N : « qualificatif (qualifier pour apporter une précision supplémentaire) » et « référence » (pour justifier l’assertion par une référence bibliographique). L’ajout d’annotations vient augmenter la possiblité qu’une information soit exactes, et ainsi en diminuer l’entropie.
Dans l’exemple suivant repris de Wikidata, il est précisé que la tour Eiffel est classée monument historique, cela depuis 1964 (qualificatif du type « date de début« ). Une deuxième annotation précise la source de cette assertion : on peut retrouver cela dans la base Mérimée, une base de données sur le patrimoine architectural français. Un autre exemple repris des documentations officielles concerne la description de le ville de Londres et sa population en 2012.
Les versions récentes de la plateforme de gestion de corpus Omeka S proposent un mécanisme similaire. Il permet l’ajout de notes, de précisions sur une source, de qualifications susceptibles de porter sur un type de donnée, des unités, des localisations ou des dates. Des séries de précisions peuvent ainsi être apportées.
- Omeka S User Manual > Items > Add an item > Values > Value annotation : Lien
4. Plusieurs possibilités pour renseigner une valeur
Lorsqu’une base sémantique est élaborée, les valeurs d’une propriété peuvent être renseignées de différentes manières. Plusieurs possibilités également exactes permettent de définir des assertions en différents niveaux de précision :
- Ne pas lier, et renseigner la valeur avec une chaîne de caractère simple. Un champs date peut par exemple être noté avec une grande expressivité, à l’aide de conventions. La valeur « 1990 » par exemple, permet de spécifier une année, « 1990-07-04 » apporte des précisions sur le mois et le jour, « 1990/1995 » permet d’exprimer une durée, d’après la norme ISO 8601. Un tri alphabétique par valeur du champs se montre alors possible en aval. Autre exemple, le nom d’un auteur d’importance mineur dans le cadre d’un corpus de recherche peut être renseigné au format texte, si l’on ignore tout de la personne ou de l’organisation nommée.
- Lier de manière interne. Un item d’un corpus peut être lié à un autre item du même corpus, indiquant une relation dont la nature se trouve précisée. Un article publié peut être lié à la page concernant son auteur, identifié comme une personne ou une organisation. Autre exemple : un colloque peut être détaillé avec des liens vers les conférences particulières données par plusieurs conférenciers avec la propriété hasPart ou isPartOf. L’interface de consultation du corpus permet ainsi la navigation aisée entre documents liés, possiblement de classes différentes.
- Ajouter un identifiant externe. Si l’on dispose dans un domaine quelconque d’un référentiel majeur, capable de fournir des IRI de qualité (Wikidata, Biblissima, DBPedia, « data.bnf.fr », « data.idref.fr », VIAF, GeoNames, ARK, DOI, par exemple), il est possible d’identifier un item en le liant de manière externe à un individu de ce référentiel. Une personne (ISNI, ORCID), un organisme, un document ou un lieu géographique peuvent être ainsi identifiés formellement.
La documentation de RDF du W3C fournit un exemple simple qui décrit à l’aide de plusieurs ontologies des entités liées : Alice, Bob, The Mona Lisa, Leonardo Da Vinci. La valeur de classe « rdf:type »= »foaf:Person » n’est ici spécifiée que pour Bob. On suppose qu’Alice est une personne et que « The Mona Lisa » est une peinture, sujet d’une vidéo stockée dans la base culturelle Europeana.
Une véritable politique doit donc être menée lors de l’élaboration d’une base sémantique, afin de canaliser les pratiques et d’obtenir quelque chose d’aussi bien structuré que possible.
5. Formats de sérialisation
Un jeu d’URI permet d’accéder aux données sérialisées en plusieurs formats. On parle en terme technique de déréférencement de l’URI ou encore de négociation de contenu. Dans DBPedia par exemple, la notice HTML d’Aristote est disponible à l’URL « https://dbpedia.org/page/Aristotle » et identifiée par son URI en http « http://dbpedia.org/resource/Aristotle » qui sert pour l’élaboration de requêtes SPARQL.
Les mêmes données peuvent être obtenues en différents formats à l’aide d’une série d’adresses parentes :
- en RDF (application/rdf+xml) à « https://dbpedia.org/data/Aristotle.rdf » et « https://dbpedia.org/data/Aristotle.xml«
- en Turtle (text/turtle) « https://dbpedia.org/data/Aristotle.ttl » (sous forme de fichier téléchargé)
- en JSON simple (application/json) à « https://dbpedia.org/data/Aristotle.json«
- en ATOM (application/atom+xml) « https://dbpedia.org/data/Aristotle.atom«
- en JSON-LD (application/odata+json), (application/rdf+json), https://dbpedia.org/data/Aristotle.jsonld (application/ld+json)
- (text/n3), (text/rdf+n3), (application/n-triples), etc.
Le code source de la page HTML « https://dbpedia.org/page/Aristotle » peut être étudié. On s’aperçoit qu’il contient les informations nécessaire à l’optimisation du référencement par les moteurs du web. La page dans la base peut ainsi être aisément retrouvée à l’aide d’une requête du type « aristote dbpedia ». Seule une petite partie des informations effectivement présentes est affichée par le navigateur. Le contexte de lecture est automatiquement détecté. En plus du français et de l’anglais affichés, la page HTML véhicule un résumé de la biographie d’Aristote en 23 langues différentes.
Plusieurs formats du W3C utilisés pour définir et échanger des ontologies sont ici explorés de XML à OWL. Il s’imbriquent et dépendent les uns des autres avec dans l’ordre XML, RDF, RDFS et OWL.
5.1 Extensible Markup Language (XML), 2001
- Espace de nom : http://www.w3.org/2001/XMLSchema#
- Abbréviation habituelle : xsd
- Sur LOV : Lien
- Sur Wikidata : Q2115
- Extensible Markup Language (XML). W3C Working Draft 14-Nov-96. W3C Working Draft 14-Nov-96 : Lien
- Extensible Markup Language (XML) 1.0 (Fifth Edition), W3C, 2008 : Lien
- XML Core Working Group Public Page (1997-2016), W3C : Lien
- XML Schema Part 1: Structures , W3C Working Draft, 1999 : Lien
- XML Schema Part 2: Datatypes, W3C Working Draft, 2000 : Lien
- W3C XML Schema Definition Language (XSD) 1.1 Part 1: Structures, 2012 : Lien
- W3C XML Schema Definition Language (XSD) 1.1 Part 2: Datatypes, 2012 : Lien
- XML Schema Working Group (1999-2013), W3C : XML Schema, XSWG Charter
- Guidelines for implementing Dublin Core™ in XML, 2003, DCMI : Lien
L’objectif d’XML est expliqué dès le début de sa publication en 1996 sous forme de document de travail, avec la phrase toujours d’actualité : « L’objectif est de rendre possible le service, la réception et le traitement sur le Web d’un SGML générique, tout comme cela est maintenant possible avec HTML. XML a été conçu pour rendre aisée son implémentation et son interopérabilité avec SGML et HTML ».
On trouve deux auteurs derrière les toutes premières versions : Tim Bray et Michael Sperberg-McQueen, ce dernier également actif dans l’initiative Text Encoding Initiative (TEI). XML parvient au statut de Recommandation en 1998, suite aux travaux du XML Core Working Group. Parmi les éléments importants proposés par XML figurent les notions particulières d’espace de noms XML (XML namespace) et de Schéma XML .
Les espaces de noms permettent en XML d’identifier de manière non ambigüe sous forme d’URI les éléments (extrait d’un fichier comprenant une balise ouvrante, une balise fermante, le contenu compris entre les deux balises et les attributs) utilisés dans un fichier XML ou bien SGML, XHTML. Le format du W3C XML Schema résulte quant à lui des activités XML Schema Working Group dont l’activité aboutit à la mise au point du format XSD (XML Schema Definition Language). Le format complexe et diffusé en deux documents (Structure et Datatypes) permet de spécifier la structure et la sémantique (la validité formelle relativement à une ontologie) que les documents XML doivent vérifier pour être déclarés valides. La vaidation des documents XML émis peut ainsi être faite. Un exemple de notice, rédigée en XML, formalisée à l’aide de Dublin Core, est ici proposé (sans garantie sur les traductions) :
<?xml version="1.0" encoding="utf-8" ?>
<metadata
xmlns="http://example.org/myapp/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://example.org/myapp/ http://example.org/myapp/schema.xsd"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<dc:title xml:lang="fr">Aristote</dc:title>
<dc:title xml:lang="en">Aristotle</dc:title>
<dc:description xml:lang="fr">Aristote (384-322 av. J.-C.) est un philosophe et polymathe grec de l'Antiquité. Il est avec Platon, dont il a été le disciple à l'Académie, l'un des penseurs les plus influents que le monde occidental ait connu. Il nait dans la cité antique de Stagire.</dc:description>
<dc:description xml:lang="en">Aristotle (384-322 BC) was an ancient Greek philosopher and polymath. Along with Plato, whose disciple he was at the Academy, he is one of the most influential thinkers that the Western world has known. He was born in the ancient city of Stagira.</dc:description>
<dc:description xml:lang="la">Aristoteles (384-322 a.C.n.) antiquus fuit philosophus et polymath Graecorum. Cum Platone, cuius discipulus Academiae fuit, unus ex gravissimis auctoribus orbem occidentales scivit. Stagira in urbe antiqua natus est.</dc:description>
<dc:identifier>https://example.net/item/1</dc:identifier>
</metadata>
5.1 Resource Description Framework (RDF), 1999
- Espace de nom : http://www.w3.org/1999/02/22-rdf-syntax-ns#
- Abbréviation : rdf
- Sur LOV : Lien
- Sur Wikidata : Q54872
- Validation en ligne : https://www.w3.org/RDF/Validator/
- Plu, Julien (2013). Une introduction aux données liées et à RDF, Developpez.com : Lien
Défini dans une première version en 1999, antérieurement à XML mais postérieurement à HTML et TEI, le format RDF (Resource Description Framework) se montre inspiré de SGML (Standard Generalized Markup Language), un langage de description à balises, normalisé ISO 8879 en 1986, utilisé à cette époque dans le domaine de l’édition professionnelle.
Groupe de travail du W3C.
De manière pratique, les préfixes de même que les espaces de nom (URI identifiant l’ontologie sur le web) sont déclarés dans la balise RDF en valeur de « xmlns ». Si produit manuellement, le code peut être validé es ligne ou bien à l’aide de logiciels dédiés. Dans l’exemple suivant, des indentations sont ajoutées dans le code pour faciliter la lecture. Les ontologies utilisées sont déclarées à l’aide de l’attribut « xmlns », dans la première balise RDF. La notice d’une personne, identifiée sur le web par une page HTML fictive « https://example.net/item/1 », de même que par son URL dans VIAF « https://viaf.org/viaf/268271999 », est diffusée au format RDF. Une autre notice du même site, accessible à l’URL « https://example.net/item/2 », décrit « Stagire », son lieu de naissance. La description est disponible en français, anglais et latin.
<?xml version="1.0" encoding="utf-8" ?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:owl="http://www.w3.org/2002/07/owl#"
xmlns:xsd="https://www.w3.org/TR/xmlschema-2/#"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:dbo="http://dbpedia.org/ontology/"
xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#">
<foaf:Person rdf:about="https://example.net/item/1">
<rdfs:label xml:lang="fr">Aristote</rdfs:label>
<rdfs:label xml:lang="en">Aristotle</rdfs:label>
<rdfs:label xml:lang="la">Aristoteles</rdfs:label>
<dbo:abstract xml:lang="fr">Aristote (384-322 av. J.-C.) est un philosophe et polymathe grec de l'Antiquité. Il est avec Platon, dont il a été le disciple à l'Académie, l'un des penseurs les plus influents que le monde occidental ait connu.</dbo:abstract>
<owl:sameAs rdf:resource="https://viaf.org/viaf/268271999"/>
<dbo:birthPlace>
<dbo:City rdf:about="https://example.net/item/2">
<rdfs:label xml:lang="fr">Stagire</rdfs:label>
<rdfs:label xml:lang="en">Stagira</rdfs:label>
<rdfs:label xml:lang="la">Stagira</rdfs:label>
<geo:lat rdf:datatype="xsd:float">40.591667</geo:lat>
<geo:long rdf:datatype="xsd:float">23.794722</geo:long>
</dbo:City>
</dbo:birthPlace>
</foaf:Person>
</rdf:RDF>
5.1.1 RDF Schema
- Espace de nom : http://www.w3.org/2000/01/rdf-schema#
- Abbréviation : rdfs
- Sur LOV : Lien
- Sur Wikidata : Q1751819
L’ontologie RDF Schema est défini comme une extension de RDF et est rédigée en RDF. Elle fournit des mécanismes pour décrire des groupes de ressources liées par des relations sur le web. La terminologie est précisée. RDFS permet d’écrire de manière plus précise que RDF des ontologies, en préccisant notamment des domaines (relatifs au sujet) et des portées / ranges (appliquées au propriétés) des ontologies.
5.1.1.1 OWL
Des exemples d’ontologies exprimées en OWL
- Dublin Core en OWL chez Protégé : https://protege.stanford.edu/plugins/owl/dc/dublincore.owl
- The DBpedia Ontology (dbpedia-owl) : Lien
5.2 Turtle
Les mêmes assertions peuvent être sérialisées en turtle (extension ttl). Les préfixes et espaces de nom sont déclarés à la suite de « @prefix ». Un validateur de code est disponible ici notamment : http://ttl.summerofcode.be/. La syntaxe de déclaration peut se servir de « point », « point-virgule » et « virgule » dans le but d’abréger la notation. Le sujet (<https://example.net/item/1> ou <https://example.net/item/2>) ne se trouve ainsi pas répété autant de fois qu’il y a de propriétés.
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix dbo: <http://dbpedia.org/ontology/> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> .
<https://example.net/item/1> a foaf:Person ;
rdfs:label "Aristote"@fr ;
rdfs:label "Aristotle"@en ;
rdfs:label "Aristoteles"@la ;
owl:sameAs <http://viaf.org/viaf/268271999> ;
dbo:abstract "Aristote (384-322 av. J.-C.) est un philosophe et polymathe grec de l'Antiquité. Il est avec Platon, dont il a été le disciple à l'Académie, l'un des penseurs les plus influents que le monde occidental ait connu." ;
dbo:birthPlace <https://example.net/item/2> .
<https://example.net/item/2> a dbo:City ;
rdfs:label "Stagire"@fr ;
rdfs:label "Stagira"@en ;
rdfs:label "Stagira"@la ;
geo:lat "40.591667"^^xsd:float ;
geo:long "23.794722"^^xsd:float .
- Julien Plu. Une introduction aux données liées et à RDF. 2013 : Lien
- Dublin Core en turtle : https://www.dublincore.org/specifications/dublin-core/dcmi-terms/dublin_core_terms.ttl
5.3 Notation3
Proposé par Tim Berners-Lee et Dan Connoly à partir de 2000, Notation3 encore appelé N3 constitue une syntaxe non XML plus riche que Turtle. Le format se montre toujours en cours d’évolution du fait des travaux du groupe N3 Community Group du W3C, mais les choses principales sont désormais bien établies.
- Primer: Getting into RDF & Semantic Web using N3 : https://www.w3.org/2000/10/swap/Primer
- Notation3 (N3), W3C : https://w3c.github.io/N3/
- Dublin Core en N3 : https://www.dublincore.org/specifications/dublin-core/dcmi-terms/dublin_core_terms.nt
5.4 JSON-LD
Avec la syntaxe JSON-LD, les valeurs entre crochets correspondent à des tableaux de valeurs. Le validateur : http://linter.structured-data.org/ se montre souvent utilisé.
<script type="application/ld+json">
[
{
"@id": "https://example.net/item/1",
"@type": ["http://xmlns.com/foaf/0.1/Person"],
"http://www.w3.org/2000/01/rdf-schema#label": [
{ "@value": "Aristote", "@language": "fr"},
{ "@value": "Aristotle", "@language": "en"},
{ "@value": "Aristoteles", "@language": "la"}
],
"http://dbpedia.org/ontology/birthPlace": [
{ "@id": "https://dbpedia.org/page/Stagira_(ancient_city)"}
]
},
{
"@id": "https://dbpedia.org/page/Stagira_(ancient_city)",
"http://www.w3.org/2000/01/rdf-schema#label": [
{ "@value": "Stagire", "@language": "fr"},
{ "@value": "Stagira", "@language": "en"}
],
"http://www.w3.org/2003/01/geo/wgs84_pos#lat": [
{ "@value": "17.9833", "@type": "http://www.w3.org/2001/XMLSchema#float"}
],
"http://www.w3.org/2003/01/geo/wgs84_pos#long": [
{ "@value": "-76.8", "@type": "http://www.w3.org/2001/XMLSchema#float"}
]
},
{"@id": "http://xmlns.com/foaf/0.1/Person"}
]
</script>
HTML : Microdata, RDFa, JSON-LD
5.5 Graphe
- RDF Grapher, un service web gratuit spécialisé dans le tracé de graphes à partir de données Turtle, RDF, RDF JSON : Lien
- https://issemantic.net/rdf-visualizer
6. Des applications
Les ontologies du web trouvent une variété d’applications. Parmi les domaines concernés, le marketing, les métiers des bibliothèques et de l’édition, la recherche et l’industrie, l’électronique, etc.
1/ Normalisation les noms des colonnes dans un tableau de données : des colonnes nommées à l’aide de propriétés d’ontologies populaires peuvent faire référence, dans l’objectif de normaliser, de gagner du temps et ainsi rendre plus facilement réutilisable les contenus.
2/ Optimisation du référencement, marketing et communication web : Les ontologies actuellement reconnues par Google, Bing de Microsoft et autres moteurs de recherche sont les suivantes : « schema.org« , Open Graph et Twitter cards. Des plugins de WordPress, Drupal ou des applications dédiées au commerce électronique en facilitent l’usage. Alors que ces deux dernières ontologies se montrent relativement simples, l’usage de « schema.org » s’avère plus complexe. Plusieurs centaines de classes et de propriétés sont définies et permettent de décrire une variété de choses, possiblement présentées de manière enrichie d’images dans les pages de résultats des moteurs. Des plugins de gestionnaires de contenus simplifient les choses.
3/ Bibliothèques, Archives, Musées (BAM) : Les institutions dont les visibilités sont nationales ou internationales ont mis progressivement au point des ontologies dédiées à la description des objets qu’elles manipulent. Les formats utilisés de manière interne pour élaborer les catalogues sont dérivés de MARC (MARC21, INTERMARC, UNIMARC) pour les bibliothèques, EAD pour les archives. Les BAM souhaitent rendre visible sur le web une partie de leurs catalogues, en diffusant certaines métadonnées et objets numérisés en accès libre. Dublin Core se montre renseigné. Au-delà, de complexes opérations de changement de format et de mise à disposition des données sont organisés (data.bnf.fr, idref, persée, etc), dans le but de rendre les catalogues plus visibles sur le web, possibles à interroger avec SPARQL.
4/ Encyclopédies, dictionnaires, thésaurus : Deux principales bases sémantiques ouvertes résultent de traitements informatiques réguliers de Wikipédia. L’ontologie de WikiData se sert de 9200 propriétés pour décrire 95 millions d’éléments. DBPedia décrit elle aussi plus de 100 millions d’entités avec un nombre elativement plus réduit de classes et de propriétés. A noter dans le domaine de la santé le vocabulaire Medical Subject Headings (MESH) de même que Ontology Disease. Dans celui de l’agronomie les thésaurus INRAE et Agrovoc, en archéologie PACTOLS. Des dictionnaires et thésaurus éventuellement multilingues peuvent être créés à l’aide d’outils essentiellement basés sur SKOS (Simple Knowledge Organization System), une ontologie mise au point à partir de 1997 dans le cadre de programmes européens.
5/ Recherche : Les concepts véhiculés par le web de données sont venus renouveler les pratiques documentaires. Des ontologies sont mises au point dans le but de rendre compatible de petits silos de données créés par différents organismes. Un langage commun est recherché en vue de rendre possible des interrogations croisées, de faciliter l’interopérabilité et l’échange de données, dans le respect de pratiques FAIR (Findable, Accessible, Interoperable, Reusable). Des ontologies telles que Dublin Core, FOAF, Bibo utilisées conjointement et complétées de propriétés de RDF, RDFS, SKOS, Wikidata, DBPedia Ontology, Schema.org, MeMO, ou bien CIDOC-CRM sont susceptibles de couvrir une bonne part des besoins descriptifs de corpus dans lesquels des entités de différentes natures cohabitent.
6/ Fédération de bases relationnelles : A la BnF par exemple, la base sémantique data.bnf.fr est construite à partir de données contenues dans trois bases différentes, le Catalogue général, la base Archives et manuscrits, de même que Gallica. La base sémantique autorise une interrogation conjointe. De même, la base IdRef de l’ABES permet de fédérer les contenus de la base Sudoc des notices d’autorité, de la base des thèses et de Calames, base des archives de l’Enseignement supérieur. La plateforme OpenArcheo peut également être citée en exemple d’un tel usage : elle permet l’interrogation simultanée de plusieurs bases du domaine. Un moteur de recherche classique doublé d’un point d’accès SPARQL facilitent l’exploration.
7/ Services et industrie : Les principes du web de données peuvent également être appliqués aux données des entreprises. Celles-ci peuvent appuyer leurs connaissances, savoir-faire et serrvices sur des données privées, étendues si nécessaire aux données puliques. Ce domaine reste pour l’instant émergeant; quelques entreprises et organismes actifs sont certains fournisseurs d’accès Internet. Des événements particuliers ciblent ces utilisateurs.
8/ Internet des objets (IdO) : Les ontologies servent dans l’IdO à réduire et résoudre des problèmes qui peuvent se présenter lors de la communication entre dispositifs. Elles facilitent la résolution de questions telles que celles de l’interopérabilité, de la sécurité, du passage à l’échelle, des données et métadonnées incomplètes, de la résolution de conflits. Certains domaines de l’électronique sont concernés.
9/ Raisonneurs, moteurs d’inférence et systèmes experts : Le terme « ontologie » vient spécifiquement de ce domaine, antérieur à la création du concepts de web en 1989, mais non d’Internet (1972). Un exemple significatif de l’usage dans les années 1980 se retrouve, par exemple avec le projet Cyc, bâti autour du langage Lisp. Certains outils de l’intelligence artificielle se montrent conçus pour assister des experts ou des systèmes dans leurs prises de décisions.
- SculptuRO (GraphDB) au centre Camille Julllian avec le thésaurus PACTOLS en SKOS : Lien
- SousLeSens : Lien
- Teklia : Lien, Archives nationales
- Industrial Ontologies Foundry (IOF) : Lien
- Sparna : Lien, BnF, Archives nationales
- Triply : Lien, TriplyDb, Yasgui
- SemApps : Lien
- Mnemotix, Ontotext GraphDB : Lien
- Logilab : Lien, data.bnf.fr, HAL
- SemWeb.Pro, le congrès annuel parisien sur les technologies du web sémantique : Lien
- Semantic Sensor Network Ontology, W3C, 2005 : Lien
- Fahad Qaswar et Al. Applications of Ontology in the Internet of Things: A Systematic Analysis. Electronics 12(1), 2023 : Lien
- Une liste de vingt-quatre ontologies populaires en 2024, Pierre Couchet : Lien