La mise en ligne de data.bnf.fr (Data) débute en 2011, avec l’ambition d’offrir un accès simple, ouvert et unique aux contenus de trois bases différentes de la bibliothèque nationale, indexées à l’aide de schémas de métadonnées distincts. Les bases concernées sont : 1/ le Catalogue général (Unimarc), 2/ la base Archives et manuscrits (EAD), 3/ la bibliothèque numérique Gallica (Dublin Core). Considérée comme un produit bibliographique particulièrement innovant, la base du web sémantique ne fut déployée que progressivement, en plusieurs versions successives, et à l’aide d’une interface progressivement plus performante.
Reflet des contenus physiques des sites de la BnF, une variété de choses peut être trouvée. Data réfrence notamment des documents et listes de documents publiés, livres, périodiques et journaux, enregistrements sonores, films, cartes, gravures, photographies et autres. Des documents non publiés tels que des manuscrits, pièces d’archives et de musée, les affiches et documents concernant des spectacles, et des expositions sont aussi visibles. Des listes d’individus, de familles et collectivités, susceptibles de jouer divers rôles lors des processus créatifs et éditoriaux, des éditeurs sont aussi accessibles. Les concepts utilisés pour classer ces divers documents se montrent centraux dans l’organisation des données. Des alignements avec des référentiels (Wikidata, ISNI, LOC, etc) externes peuvent aussi être trouvés.
Data peut être aisément interrogé à l’aide d’un moteur de recherche standard. Des moteurs thématiques (Auteurs, Œuvre, Thèmes, Lieux, Dates, Spectacles, Périodiques) facilitent l’accès à des types particuliers de données et conduisent vers des pages web dédiées. Générées dynamiquement, celles-ci contiennent des informations sur les choses recherchées, de même que sur les éléments liés, comme des co-auteurs par exemple. Des découvertes inattendues deviennent alors possibles.
Pour les plus curieux ou ceux qui auraient à exporter en masse des métadonnées, Data peut aussi être exploré avec le langage de requêtes SPARQL (SPARQL Protocol and RDF Query Language). Ce langage informatique apparenté à SQL (Structured Query Language) constitue une spécification relativement récente du W3C (World Wide Web Consortium). La première version stable 1.0 est publiée en 2006. La version 1.1 accède au statut de recommandation en 2012 et la version 1.2 est actuellement en cours d’étude. Ce langage permet de questionner une base de données orientée graphe, de réaliser des statistiques sur les contenus, d’extraire des tableaux de données dont la structure peut être finement paramétrée.
Deux interfaces d’interrogation sont proposées pour poser des requêtes SPARQL dans Data. L’interface principale se base sur Yasgui (Yet Another SPARQL Graphic User Interface), une brique logicielle libre proposée par la société Triply. Développée par la société Sparna, Sparnatural propose une interface alternative. Dans les deux cas, la requête de même que les résultats obtenus sont affichés simultanément. Quelque soit l’interface choisie, un petit apprentissage et quelques connaissances sur la structure des données se montrent nécessaires.
Cette première partie d’une série de plusieurs billets présente les bases constitutives de Data, de même que les identifiants ARK (Archival Resource Key) largement utilisés dans les bases. Après présentation du modèle de donnée de Data, de premières requêtes SPARQL sont lancées. Plusieurs exemples sont choisis sur le sujet de Jean-Sébastien Bach, maître du contrepoint et de la composition baroque. Les requêtes posées se veulent génériques. Elles peuvent être adaptées à d’autres sujets moyennant quelques modifications de l’ARK. La première partie de ce tutoriel peut être suivie par tous. La partie finale nécessite de premières connaissances de SPARQL.
Plan
- Les contenus, l’interface standard
- Les bases constitutives
- 2.1 Le Catalogue général
- 2.2 La base Archives et manuscrits
- 2.3 Gallica
- 2.3.1 Cas d’une correspondance
- 2.3.2 Cas d’un disque microsillon
- 2.3.3 Cas d’un texte numérisé et OCRisé
- 2.3.4 Cas d’une image de partition autographe
- 2.3.5 La visionneuse IIIF de Gallica
- ARK à la BnF
- Organisation générale des données dans Data
- 4.1 Modèle de données
- 4.2 Les classes et le nombre des items référencés
- 4.3 Ontologies
- 4.4 Trouver l’IRI
Requêtes SPARQL. Le numéro de la requête indique la localisation dans le plan :
- Q41 Quel nombre total de triplets contient Data ? : Lien
- Q42.1 Quelles sont les classes des objets décrits dans Data ? : Lien
- Q42.2 Combien de notices sont de la classe foaf:Person ? : Lien
- Q44.1 Trouver l’IRI à partir du libellé préférentiel « Johann Sebastian Bach (1685-1750) » : Lien
- Q44.2 Trouver l’IRI à partir du nom « Johann Sebastian Bach », manipulation de l’IRI par expression régulière : Lien
- Q44.3 Trouver l’IRI à partir du nom « Johann Sebastian Bach », méthode directe : Lien
- Q44.4 Lister les entités dont le libellé contient « Johann Sebastian Bach » : Lien
- Q44.5 Lister 10 personnes dont le nom de famille est exactement « Bach » : Lien

1. Les contenus, l’interface standard
Alimenté par le Catalogue et les fichiers d’autorité, par Archives et manuscrits, de même que par Gallica, la base sémantique de la BnF présente des pages web relatives aux œuvres, aux auteurs, aux thèmes, et lie entre eux ces contenus. Les statistiques données par la BnF pour ses fonds et activités en 2021 sont les suivantes :
- 15 millions de notices bibliographiques dans l’ensemble des bases
- 780 000 notices de publications périodiques
- 200 000 notices de sujets dans le Catalogue
- 60 000 notices de spectacles
- 4 millions de notices de personnes dans le Catalogue
- 19 000 visiteurs uniques par jour
- 1 musée localisé sur le site Richelieu
- des expositions temporaires cataloguées (visibles sur les sites Richelieu et François-Mitterrand)

Part des notices du Catalogue général versées dans data.bnf.fr en 2020 : Lien | 2019 | 2020 |
a) Entités Personne | 98,5% | 99,6% |
b) Entités Organismes | 99,3% | 99,9% |
c) Entités Titres | 83,0% | 99,9% |
d) Entités RAMEAU | 100,0% | 100,0% |
e) Entités Noms géographiques | 99,2% | 99,1% |
f) Notices de spectacles | 99,9% | 99,9% |
g) Périodiques | 62,9% | 60,6% |
h) Monographies | 74,5% | 74,0% |
Data se montre asynchrone, c’est à dire que des mises à jour des contenus sont organisées, et la base s’enrichit à intervalle régulier des nouveautés en provenance des bases. Échelonné sur les années 2020 à 2024, un plan de développement de Data a été récemment lancé. La Bibliothèque nationale entreprend en 2021 des ajouts, dans le but de « LRMiser » (cataloguer et exposer les données dans l’esprit du modèle IFLA-LRM et de la Transition bibliographique), d’aligner les données avec celles de référentiels externes (VIAF, Wikipédia, Wikimedia Commons, Wikidata, GeoNames).
- La BnF en chiffres, 2021 : Lien
- Rapport d’activité 2021 – L’information et les autres services en ligne : Lien
- data.bnf.fr. Feuille de route – 2020-2024 : Lien
- Transition bibliographique, des catalogues vers le web de données : Lien

L’interface standard permet de lancer une requête simple sur l’ensemble des contenus. En dessous, des moteurs thématiques favorisent l’accès à des catégories particulières de données. On peut par exemple sélectionner le moteur thématique « Auteurs » et lancer « Jean-Sébastien Bach ».

On obtient ainsi les personnes et les organismes en relation avec ce patronyme et l’on voit que la forme préférentielle retenue à la BnF est « Johann Sebastian Bach (1685-1750) ». On clique sur ce nom et s’affiche la notice de Bach https://data.bnf.fr/11889790/johann_sebastian_bach/, dans laquelle plusieurs listes se succèdent .
Il est possible en survol d’un titre d’avoir un aperçu rapide du contenu. Le titre Méditation sur le 1er Prélude de piano de S. Bach, composée pour piano et violon solo avec orgue ad lib. par Ch. Gounod. [BWV 846] est retenu. Il donne accès à des partitions et adaptations de Bach, signalées dans le Catalogue, pour certaines numérisées et en libre accès dans Gallica. Une icône signale la numérisation.

2. Les bases constitutives
Les bases constitutives de Data restent individuellement accessibles et les interfaces natives peuvent être décrites. Celles-ci gardent un intérêt certain et peuvent être utilisées préférentiellement à Data.
2.1 Le Catalogue général
Le Catalogue général constitue la base la plus importante en volume de la BnF. Élaborée par des catalogueurs et catalogueuses, elle résulte des travaux d’un réseau de bibliothèques partenaires. Environ 300 professionnels des bibliothèques contribuent à l’élaboration. Les collections entrées au titre du dépôt légal, ainsi que par acquisition et don de documents sont cataloguées.
Les objets référencés sont de toutes natures : livres, périodiques, objets de musée. Des notices de regroupement permettent de cataloguer des objets en série, comme par exemple des oeuvres en plusieurs tomes. Les notices d’autorités (personnes, collectivités, noms communs, marques) y sont également présents. Les individus et plus largement familles, groupes de personnes, sociétés, sont nommés de manière normalisée et univoque. Les sujets des œuvres sont indexés à l’aide de RAMEAU, une suite de thésaurus utilisée conjointement par la BnF et l’ABES.
L’interface comprend un moteur de recherche principal, à partir duquel plusieurs options peuvent être présélectionnées. Des moteurs thématiques permettent la recherche d’auteurs (AUTEUR A-Z), de thèmes sujets RAMEAU (SUJETS A-Z), la recherche de titres de périodiques (PERIODIQUES), une recherche par cote ou par univers (Jeunesse, Image et carte, Musique). Une recherche avancée est aussi disponible.

Un espace personnel offre la possibilité de mémoriser des sélections de résultats en provenance du Catalogue général ou bien de Gallica. Tout abonné peut ainsi se constituer de manière gratuite une sorte d’espace personnel, localisé sur les machines de la BnF. Des mots-clés personnalisés peuvent être ajoutés.
La requête « Johann Sebastian Bach » est lancée dans le moteur général et 18 204 notices bibliographiques sont trouvées. Des facettes permettent d’affiner les résultats en n’en affichant qu’une partie. On peut sélectionner dans la barre latérale « Nature de document > Musique notée », suivi de « Localisation > Consultable sur Gallica », pour accéder trouver 103 partitions numérisées, imprimées ou manuscrites.
Un document manuscrit est ici choisi : Ich habe meine Zuversicht. Il s’agit d’un fragment autographe de la 188ème cantate, d’inspiration religieuse, numérotée BWV 188 (d’après le Bach-Werke-Verzeichnis) : J’ai placé ma confiance, incipit Unerforschlich ist die Weise, Impénétrables sont les chemins. Un lien vers Gallica permet de visionner le fragment, éventuellement accessible en haute résolution à l’aide du format IIIF. Le fragment original (une partition découpée en quelques ligne de portée) est localisé en réserve au site Richelieu-Louvois. La notice peut être exportée au format UNIMARC (utilisé à la BnF pour le catalogage), ou bien au format Intermarc en vigueur à l’ABES et dans les bibliothèques universitaires.

En mode recherche avancée, le formulaire permet de lancer une requête en sélectionnant « Dans toute la notice » ou bien « Auteur », « Titre », « Sujet, genre ou forme », « Notes », « Données éditoriales, ISSN, ISBN, etc. », « Données matérielles et techniques », « Langue », « Date », « Cote et données de gestion ». Nous choisissons alors de chercher « Johann Sebastian Bach » dans « Auteur » et on obtient 16 717 notices.
Le Catalogue ne permet pas d’obtenir une liste complète et non redondante des œuvres originales de Bach. Un spécialiste du Cantor de Leipzig, à la recherche d’images des manuscrits originaux, pourrait se tourner pour ce genre d’opération vers Bach Digital. Cette base de données contient en effet une belle liste de documents numériques des œuvres originales écrites par J. S. Bach et par plusieurs membres de sa famille. Des originaux y sont rassemblés en provenance de diverses archives et bibliothèques localisées un peu partout dans le monde. Il reste cependant possible de trouver les 22 partitions manuscrites de Bach numérisées dans Gallica. Parmi celles-ci, deux fragments autographes sont présents. Au niveau technique, on remarque le formalisme de l’URL d’une notice du Catalogue : protocole https, nom de domaine, identifiant ARK.
- [Ich habe meine Zuversicht. BWV 188] : https://catalogue.bnf.fr/ark:/12148/cb39606778z
- Kantaten und Motetten. Vol. 15, BWV 180-189 [Musique imprimée] / Johann Sebastian Bach : https://catalogue.bnf.fr/ark:/12148/cb45479281v
De nombreuses possibilités d’export existent, centrées autours des formats Unimarc, Intermarc et Dublin Core. L’interface web permet des exports en CSV simple, CSV avancé. Plutôt réservé aux spécialistes des données, il est aussi possible d’extraire une sélection de notices du catalogue encapsulées dans du XML, à l’aide du service SRU (Search/Retrieve via URL). La recherche à l’aide de ce service de « Johann Sebastian Bach » et de « BWV 188 » donne ainsi 35 résultats. Les notices de l’une des collections particulières de la BnF peuvent aussi être extraites en masse.
- Bach, Johann Sebastian (1685-1750) forme internationale, notice de personne : Lien
- Notice bibliographique du livre « Jean-Sébastien Bach », possible à emprunter dans plusieurs des bibliothèques gérées conjointement par la BnF : Lien
- Liste complète des œuvres de Jean-Sébastien Bach sur Wikipédia : Lien
- Bach digital : Lien
- API et jeux de données, Le catalogue général de la BnF, BnF : Lien
- Entrepôt OAI-PMH de BnF Catalogue général (OAI-CAT), BnF : Lien

2.2 La base Archives et manuscrits
La base Archives et manuscrits contient des manuscrits médiévaux et modernes, des legs en provenance de personnalités du monde de l’art et du spectacle, des collections de numismatique, médailles et antiques. Les signalements suivent les recommandations de la Norme générale et internationale de description archivistique ISAD (G) (General International Standard Archival Description). La base dispose d’une interface d’interrogation particulière.
Des items peuvent être recherchés sur deux niveaux : dans l’ensemble des collections, ou bien à l’intérieur d’une collection particulière. Suite à la question générale « Johann Sebastian Bach », on obtient 54 résultats. Deux sortes de facettes facilitent l’exploration des fonds. « Trouvé dans » propose les options « Nom (46) », « Sujet (5) », « Titre d’œuvre (22) », « Intitulé (20) ». Le groupe de facettes « Affiner » propose de détailler « Départements », « Noms », « Types de documents », « Langues », « Sujets », « Lieux », « Dates ». Les localisations physiques des fonds (les Départements) de même que l’organisation arborescente de l’archivage se trouvent mis en avant. Plusieurs pièces d’un même fonds peuvent se montrer pertinentes et contenir des documents de diverses natures (enregistrement sonore, texte manuscrit, texte imprimé) en lien avec une recherche.
De manière générale, les fonds à la BnF s’avèrent de constitution relativement récente, postérieure à 1900. De nombreuses collections résultent de dons faits par des familles, suite au décès d’instrumentistes et de musicologues. Des exemples en relation avec Bach sont les fonds Yvone Rokseth, Léonce de Saint-Martin , Olivier Messiaen, grand interprète de Bach et également compositeur. D’autres fonds concernent les spectacles et proviennent de théâtres parisiens (Athénée, Opéra de Paris, Théâtre de la Ville).
Une recherche avancée dans la base est possible. L’interrogation dans tous les mots de BWV (pour Bach-Werke-Verzeichnis) et dans Sujet de « Johann Sebastian Bach » donne parmi les résultats le fonds Yvone Rokseth, localisé à Richelieu-Louvois. Cette localisation constitue le berceau historique de la BnF. Il est possible lorsque l’on visite, de se déplacer à la bibliothèque de l’Institut national d’histoire de l’art (INHA), à la bibliothèque de l’École nationale des Chartes, au musée de la BnF de même qu’à la spectaculaire salle Ovale récemment restaurée. La base précise que le fonds Rokseth fut établi de 1910 à 1948, qu’il est constitué de 13 boîtes et 640 volumes. Des informations biographiques concernent Yvone Rokseth et ses activités de musicologue; les collections et sous-collections sont finement décrites.

Comme l’indiquent les icônes localisées de manière verticale dans la partie gauche de l’écran, il existe trois manières de parcourir le fonds Rokseth : 1/ la loupe donna accès au moteur et le mot « BWV » peut être cherché dans le fonds 2/ Une navigation hiérarchique est également possible. 3/ Un index des sujets et provenances des papiers est présent. Dans notre exemple, le sous-fonds « Œuvres musicologiques » contient une note sur plusieurs compositions de Bach, replacées dans leur contexte créatif par Yvonne Rockseth.
La structure de l’ARK (Archival Resource Key) reflète la structure physique du fonds :
- https://archivesetmanuscrits.bnf.fr/ark:/12148/cc105122b, fonds Rockseth
- https://archivesetmanuscrits.bnf.fr/ark:/12148/cc105122b/ca59726293861609, sous-fonds « Œuvres musicologiques »
Une image concernant Bach et numérisée aussi dans Gallica est recherché dans Archives. Une collection de manuscrits et gravures anciennes et originales acquise par la BnF est choisie. Elle se trouve accessible sous « Département des Manuscrits > Français > Nouvelles acquisitions françaises > NAF 22734-22741« . L’interface assez minimaliste n’autorise qu’un export de la notice au format PDF. Les métadonnées en EAD ne peuvent pas être récupérées, pas d’API (Application Programming Interface) non plus.
Explorons la collection NAF 22734-22741 en parcourant la hiérarchie : on trouve ainsi un étrange album relié, qui rassemble toute une série d’autographes, de dessins et portraits (gravures) de personnages célèbres. Cet album composite fut créé au XIXe siècle par l’homme politique Alexandre Bixio, un collectionneur. Une gravure de Bach se trouve présente sous la cote « NAF 22734 (cote) • I. A – B » en vue 64 recto. Un lien vers Gallica donne accès au portrait (https://gallica.bnf.fr/ark:/12148/btv1b100272996/f124), visible si on le souhaite au format IIIF (International Image Interoperability Framework), particulièrement adapté au visionnage d’images en très haute définition (date et auteur de la gravure inconnus).

2.3 Gallica
Quelques une des possiblilités d’exploration de la base Gallica des documents numérisés par la Bnf et ses partenaires peuvent être explorées. Gallica contient actuellement plus de 10 millions de documents numérisés. La BnF numérise actuellement tous les mois plus d’un million de pages. Elle s’appuie pour cela, sur ses ateliers internes à hauteur de 20%, sur des prestataires choisis dans le cadre de marchés publics. Des documents numériques résultent de cadres d’accords conclus avec d’autre bibliothèques. Interactives, les statistiques permettent d’accéder à des catégories particulières de documents. Les activités débutent dès 1997. La base s’enrichit chaque semaine de nombreuses nouveautés pour donner aujourd’hui accès à plus de 850 000 livres, 170 000 manuscrits, 520 000 objets, 64 000 partitions, ainsi qu’à des enregistrements sonores. Gallica propose un moteur de recherche standard, une recherche avancée, de même qu’une interface dédiée à l’exploration thématique des contenus. Une recherche menée sur Bach donne 3802 résultats. Les facettes localisées à gauche facilitent la navigation et l’affinement de la requête.
- La numérisation à la BnF : Lien
- Rapport d’activité 2021 – Gallica et la politique de diffusion numérique des collections : Lien
2.3.1 Cas d’une correspondance
Nous nous intéressons par exemple à une correspondance manuscrite, préservée au Département Musique, dont le sujet est Bach, pour comparer les ARK dans le Catalogue et dans Gallica. Une lettre écrite par Camille Saint-Saëns est choisie, écrite de Monte-Carlo, en date du 7 mars 1918, adressée à destinée à René Brancour. La description signale : « Lettre autographe signée sur papier quadrillé, timbre sec en haut, à gauche. – La tragédie de Jean-Philippe Rameau « Castor et Pollux » a été représentée pour la première fois à l’Opéra de Paris – Palais Garnier, le 21 mars 1918. – Timbre de l’enveloppe arraché. – Collection Macnutt« . On a les URL suivantes dans le Catalogue et Gallica :
- Catalogue
- https://catalogue.bnf.fr/ark:/12148/cb39748946c, notice dans le catalogue au format web
- https://catalogue.bnf.fr/ark:/12148/cb39748946c.intermarc, notice dans le catalogue au format Intermarc
- https://catalogue.bnf.fr/ark:/12148/cb39748946c.unimarc, notice dans le catalogue au format Unimarc
- Gallica
- https://gallica.bnf.fr/ark:/12148/btv1b53032630b, page d’accueil dans Gallica, redirection vers la première page
- https://gallica.bnf.fr/ark:/12148/btv1b53032630b/f1.item, première page de la correspondance
- https://gallica.bnf.fr/ark:/12148/btv1b53032630b/f2.item, seconde page
- https://gallica.bnf.fr/ark:/12148/btv1b53032630b/texteBrut, notice de la lettre au format Dublin Core
On remarque que la partie finale de l’URL détermine la nature de ce qui est visionné.
2.3.2 Cas d’un disque microsillon
Place à la musique enfin. Il est possible de sélectionner « Type de document > Enregistrement sonore » puis de choisir dans cet ensemble « BWV 846 », la cote de « Prélude et fugue en ut majeur » de Bach. Une adaptation jazz d’un prélude de Bach est choisie, adaptation elle-même du « Clavier bien tempéré, Livre I: Prélude, BWV 846 ». Il s’agit d’un enregistrement innatendu daté de 1960, dont l’auteur est Bruno Coquatrix, adaptation jazz des œuvres classiques de Bach. Le 33 tours microsillon intitulé « Play Bach » est enregistré avec Jacques Loussier au piano, Pierre Michelot à la contrebasse et Christian Garros à la batterie. Un extrait de 30 secondes de chaque plage de chaque face peut être écouté. On remarque de nouveau la structure hiérarchique des ARK :
- https://gallica.bnf.fr/ark:/12148/bpt6k8802700k
- https://gallica.bnf.fr/ark:/12148/bpt6k8802700k/f1.media, Face A (plages 1,2,3,4)
- https://gallica.bnf.fr/ark:/12148/bpt6k8802700k/f2.media, Face B (plages 1,2,3,4)
- https://gallica.bnf.fr/ark:/12148/bpt6k8802700k/texteBrut, Image de la partie centrale du disque
Nous pouvons remonter depuis la partie « En Savoir Plus » vers la notice du disque présente dans le Catalogue général et dans Data. Les deux bases utilisent le même ARK pour identifier les mêmes notices :
- https://catalogue.bnf.fr/ark:/12148/cb378420094 (expression), notice du Catalogue (Decca) avec deux exemplaires :
- https://catalogue.bnf.fr/ark:/12148/cb43524642q (Barcelona : Wax time records; [France], Decca)
- https://catalogue.bnf.fr/ark:/12148/cb45749323v (Universal music France, notice plus détaillées)
- https://data.bnf.fr/ark:/12148/cb45749323v (Universal music France, données en RDF sur Data, sous-notices Concept, Expression et Manifestation).

2.3.3 Cas d’un livre
Un livre numérisé et OCRisé est maintenant choisi dans la liste des œuvres dont le sujet est Bach. Jean-Sébastien Bach, écrit par Robert Pitrou et publié en 1941 aux Éditions Albin Michel est retenu. Le livre sous droit n’est visible que de manière partielle. Cependant les API permettent l’affichage de nombreuses choses particulières.
- Catalogue : https://catalogue.bnf.fr/ark:/12148/cb355796962
- Gallica : https://gallica.bnf.fr/ark:/12148/bpt6k4806948h
- Texte intégral non disponible publiquement
- Table des matières en TEI : https://gallica.bnf.fr/services/Toc?ark=ark:/12148/bpt6k4806948h
- Métadonnées en Dublin Core XML (API OAI) : https://gallica.bnf.fr/services/OAIRecord?ark=bpt6k4806948h
- Pagination en XML : https://gallica.bnf.fr/services/Pagination?ark=bpt6k4806948h
- Vignette en faible résolution : https://gallica.bnf.fr/ark:/12148/bpt6k4806948h/lowres
Dans le cas de textes libres de droits, d’autres possibilités existent. Connaissant l’ARK du document, il est possible de récupérer le texte brut. On ajoute dans ce cas le « qualifier » f[X]n[y]
à la fin du « qualifier » texteBrut
, où X
est le numéro de la page à partir de laquelle on souhaite obtenir le texte, et n
le nombre des pages suivantes. La tables des matières (Toc, Table of content) est également disponible et deux cas se présentent. Deux exemples de possibilités :
1/ Le texte a été numérisé de manière ancienne, par exemple : Histoire de la Bibliothèque Mazarine et du Palais de l’Institut / par Alfred Franklin, 1901. La table des matières est disponible au format HTML.
- Livre numérisé : https://gallica.bnf.fr/ark:/12148/bpt6k83037p
- Texte brut intégral : https://gallica.bnf.fr/ark:/12148/bpt6k83037p.texteBrut
- Texte brut de la page 5 à la page 15 : https://gallica.bnf.fr/ark:/12148/bpt6k83037p/f5n10.texteBrut
- Table des contenus en HTML : https://gallica.bnf.fr/services/Toc?ark=ark:/12148/bpt6k83037p
2/ Le document a été numérisé. J.-J. Rousseau et ses œuvres : biographie et fragments / publiés par le Comité du centenaire, 1878. Dans ce cas un XML au format TEI (Text Encoding Initiative) peut être obtenu.
- Livre numérisé : https://gallica.bnf.fr/ark:/12148/bpt6k97540464
- Texte brut intégral : https://gallica.bnf.fr/ark:/12148/bpt6k97540464.texteBrut
- Table des matières en TEI : https://gallica.bnf.fr/services/Toc?ark=ark:/12148/bpt6k97540464
De nombreuses autres options sont documentées dans une page d’un site dédié aux API :
2.3.4 Cas d’une image de partition
Avec le fragment BWV 188, on a les ARK :
- Catalogue : https://catalogue.bnf.fr/ark:/12148/cb39606778z
- Gallica accueil : https://gallica.bnf.fr/ark:/12148/btv1b550025455
- Gallica métadonnées : https://gallica.bnf.fr/ark:/12148/btv1b550025455.texteBrut
- Gallica recto : https://gallica.bnf.fr/ark:/12148/btv1b550025455/f1.item
- Gallica recto format vignette : https://gallica.bnf.fr/ark:/12148/btv1b550025455/f1.item.thumbnail
- Gallica verso : https://gallica.bnf.fr/ark:/12148/btv1b550025455/f2.item
- Gallica verso format résolution moyenne : https://gallica.bnf.fr/ark:/12148/btv1b550025455/f2.item.medres
2.3.5 Cas d’un périodique
Les périodiques constituent une dernière catégorie de document. Publiée à Paris de 1854 à 1870 de manière annuelle, la revue « Almanach musical pour … » est sélectionnée. Dans le Catalogue, on trouve la revue avec une recherche dans « Périodique » :
- Catalogue : https://catalogue.bnf.fr/ark:/12148/cb387197736
- Gallica, tous les numéros numérisés (recherche possible) : https://gallica.bnf.fr/ark:/12148/cb387197736/date
L’exemplaire de l’année 1863 a été numérisé et OCRisé à la BnF. Une recherche dans le texte intégral peut être lancée. Dans la publication, l’anniversaire de la naissance de Bach est rappelé et noté au samedi 21 mars 1863. La page est ornée d’une gravure.
- Recherche dans le texte intégral d’un périodique : https://gallica.bnf.fr/ark:/12148/bpt6k6203034d/f9.image.r=bach#

Les périodiques disposent d’une facette dédiée « Parution par date », dans laquelle est indiquée le calendrier des parutions qui peuvent être consultées. Les métadonnées Dublin Core sont signalées dans « En savoir plus ». Suivent encore les légendes, tables des matières, texte OCRisé.
- Titre : Almanach musical pour … : éphémérides musicales, biographies des célébrités de la musique / [par Moléri [« puis » Molé] et Oscar Comettant]
- Éditeur : A. Houssiaux (Paris)
- Éditeur : Collignon (Paris)
- Date d’édition : 1863
- Notice du catalogue : http://catalogue.bnf.fr/ark:/12148/cb387197736
- Type : texte
- Type : publication en série imprimée
- Langue : français
- Format : Nombre total de vues : 1211
- Description : 1863
- Description : 1863 (A10).
- Droits : Consultable en ligne
- Identifiant : ark:/12148/bpt6k6203034d
- Source : Bibliothèque nationale de France, département Littérature et art, V-12400-12416
- Conservation numérique : Bibliothèque nationale de France
- Date de mise en ligne : 05/03/2012
2.3.6 La visionneuse IIIF
Le visionnage en haute résolution des images constitue un des points forts de l’interface actuelle. Depuis 2018 , Gallica offre la possibilité de visionner ces objets au format IIIF (International Image Interoperability Framework). La BnF s’appuie pour cela sur la visionneuse Mirador. On trouve derrière la conception de cette brique opensource un ensemble de partenaires parmi lesquels l’Université de Stanford et en France, de grandes bibliothèques comme l’INHA (Institut national d’histoire de l’art), la BnF.
Le format IIIF (prononcer 3i-ef) repose sur un ensemble de conventions versionnées et documentées. Réalisé par Jean-Philippe Moreux de la BnF, un dépôt sur Github expose un certain nombre de possibilités de ce format ouvert.
- Les bibliothèques numériques et le standard IIIF, Johann Gillium, Bibliothèque de l’INHA, 2019 : Lien
- API IIIF de récupération des images de Gallica, BnF : Lien
- IIIF Experiments, altomator, Jean-Philippe Moreux, BnF : Lien

Lorsque les documents sont visionnés en IIIF, il est possible d’aisément zoomer sur une fraction de page, de feuilleter les pages des documents numériques. Le passage en mode plein écran (en haut à droite) est possible. Les métadonnées sont rappelées en sélectionnant le « i » de « Information ». On trouve tout en bas de la liste des métadonnées l’URL du manifeste de l’Almanach de 1863. Cette URL permet d’oberver le document localisé sur les serveurs le la BnF depuis d’autres interfaces
- Le manifeste de l’Almanach musical pour 1863 : https://gallica.bnf.fr/iiif/ark:/12148/bpt6k6203034d/manifest.json
Des outils supplémentaires sont mis à disposition, comme par exemple un outil d’annotation.

3. ARK à la BnF
Une politique de maintenance des ARK est menée àla BnF, si bien qu’en cas de fusion de notices par exemple, l’ancien ARK redirige l’utilisateur de manière transparente vers le nouvel enregistrement. L’identification est dite pérenne. Mis au point en 2001 par John Kunze de l’Université de Californie et R. P. Channing Rodgers de la NLM (National Library of Medecine), le système ARK se montre tout à fait comparable dans ses fonctionnalités aux systèmes Handle, PURL ou DOI. Ces systèmes d’identification se montrent décentralisés et donc réactifs en terme de temps de réponse. La BnF fait partie des premières institutions à avoir adopté ARK en France, entrainant dans son sillage plusieurs bibliothèques universitaires françaises et francophones.
Play with ARK !
Data, le Catalogue, Gallica, de même qu’Archives et manuscrits se servent de manière coordonnée du même identifiant ARK. Il est donc aisé de passer par exemple d’une notice du Catalogue à une notice de Data et l’inverse, en modifiant dans le navigateur le nom de domaine de l’URL. Interne et spécifique à la BnF, l’identifiant de notice FRBNF se trouve inclus dans l’ARK. Le jeu des URL, IRI, ARK et autres identifiants est donc le suivant. Les URLs du type ARK peuvent être décryptées :
- Identifiant ARK de Bach (pour citation) : ark:/12148/cb118897907
- Identifiant de la BnF : 12148
- Identifiant FRBNF de Bach : 11889790 (les deux premiers caractères de l’ARK « cb » et le dernier « 7 » sont ôtés)
- Notice de Bach dans le Catalogue, format web : https://catalogue.bnf.fr/ark:/12148/cb118897907
- Notice de Bach dans le Catalogue, format web et Unimarc : https://catalogue.bnf.fr/ark:/12148/cb118897907.unimarc
- IRI de Bach dans Data : http://data.bnf.fr/ark:/12148/cb118897907
- Notice de Bach dans Data, format web : https://data.bnf.fr/fr/11889790/johann_sebastian_bach/
- Notice de Bach dans Data, format RDF : https://data.bnf.fr/fr/11889790/johann_sebastian_bach/rdf.xml
- Du numéro FRBNF à l’identifiant ARK, Transition bibliographique, Étienne Cavalié, 2017 : Lien
4. Organisation générale des données dans Data
Après ce petit aparté, Il est possible de revenir à Data. Le modèle de données de la base sémantique résulte de réflexions longuement menées au niveau international par l’IFLA, l’organisme qui rassemble au niveau mondial un important nombre de bibliothèques nationales. Nommé FRBR (Functional Requirements for Bibliographic Records), un premier modèle théorique est publié dans les années 1990. Il propose une nouvelle méthode de catalogage ainsi que la structuration de toute notice bibliographique en une pile de 4 entités nommées Œuvre, Expression, Manifestation et Item. Publié en 2017, le modèle IFLA LRM (Library Reference Model) confirme les options de FRBR en les modernisant. Mis au point en 2011, Data s’appuie sur une interprétation particulière de FRBR.
4.1 Le modèle de données
La documentation de Data résume à l’aide d’un schéma complexe la structure des données retenue à l’époque de la création. Dans le schéma, les pages web générées par l’application sont symbolisées par un rectangle en valeur de « foaf:page » dans lesquelles le logo (plume, livre, rose des vents, masque de théatre) symbolise la nature de l’entité décrite (Auteur, Thème, Oeuvre, Lieu, Date,Événement). Ces pages web peuvent être consultées depuis l’interface standard, sans aucune connaissance particulière de SPARQL et sont conçues pour être bien référencées par les moteurs de recherche.

Dans le schéma assez dense du modèle de données, marquées par des cercles et ellipses vertes et rouge, huit entités (AUTEUR, CONCEPT, OEUVRE, EXPRESSION, MANIFESTATION, LIEU, DATE, SPECTACLE) sont caractérisées. Un exemple d’IRI (http://data.bnf.fr/ark:/11248/cb…) se trouve indiqué sous le nom de l’entité, suivi de la ou des classes d’appartenance, en valeur de « rdf:type » (foaf:Person, foaf:Organization, skos:Concept, etc). Les abréviations foaf, skos, frbr-rda, geo, oql-time, dcterms correspondent au nom de l’ontologie dans laquelle classes et propriétés sont définies.
En ce qui concerne la lecture du schéma, l’appellation « rdf:type > frbr-rda:Manifestation », par exemple, indique que la classe de l’entité Manifestation est spécifiée à l’aide de la propriété Manifestation de l’ontologie frbr-rda. La propriété « rdarelationships:electronicReproduction » indique que la propriété « electronicReproduction » de l’ontologie « http://rdvocab.info/RDARelationshipsWEMI/ » est utilisée.
Dans le schéma du modèle de données, l’entité Concept apparait centrale et utilisée en valeur des propriétés dcterms:subject et foaf:focus. Cette entité structure les sujets des Oeuvres et Manifestations. Sont alors renseignés un ensemble d’informations basiques tel que le libellé préférentiel en français, d’éventuels libellés alternatifs en français et dans d’autres langues, des liens vers un sujet vu dans le Catalogue général ou vers des référentiels externes. Une exemple de sujet pourrait être « Musique baroque ».
- Dans le Catalogue : https://catalogue.bnf.fr/ark:/12148/cb16599814s
- Dans Data : https://data.bnf.fr/ark:/12148/cb16599814s
- Redirige vers : https://data.bnf.fr/16599814/baroque__musique_/
- Dans Data en XML : https://data.bnf.fr/16599814/baroque__musique_/rdf.xml
Nous pouvons maintenant enfin commencer sereinement à aborder SPARQL. Une première requête SPARQL du type statistique peut maintenant être posée : le nombre total de triplets dans la base est calculé. Cette requête peut être posée sur toute base sémantique, quelque soit sa structure et son contenu :
Q41 Quel nombre total de triplets contient Data ? : Lien
# Nombre de triplets dans Data
SELECT (COUNT (?s) AS ?nbTriplets)
WHERE {
?s ?p ?o. # motif de triplet quelconque
}
Fin 2022, la base contient 607 639 308 triplets. Dans SPARQL, les variables (?s, ?nbTriplets) sont précédées d’un point d’interrogation. Pour la suite de cette présentation, il est préférable d’avoir suivi préalablement un tutoriel SPARQL.
4.2 Les classes et le nombre des items référencés
Les classes des items décrits peuvent être recherchées.
Q42.1 Quelles sont les classes d’objets décrits dans Data ? : Lien
# Classes utilisées dans la base
SELECT DISTINCT ?ClasseUri # colonne affichée
WHERE {
[] a ?ClasseUri. # motif de triplet
}
ORDER BY ?ClasseUri
Dans la partie WHERE de la requête, le sujet du motif de triplet « [] » indique « tout contenu de la base », le prédicat « a » est un raccourci pour « rdf:type » et désigne la classe, l’objet du motif de triplet « ?ClasseUri » désigne la variable affichée en retour. Autrement dit, il est demandé de mémoriser toutes les classes de la base dans la variable « ?ClasseUri ». L’affichage est commandé dans la partie SELECT de la requête.
ClasseUri | |
38 | <http://xmlns.com/foaf/0.1/Person> |
37 | <http://xmlns.com/foaf/0.1/Organization> |
36 | <http://xmlns.com/foaf/0.1/Document> |
34 | <http://www.w3.org/TR/owl-time/Instant> |
Au final, un tableau de résultat est affiché, trié par ordre alphabétique de l’IRI de la classe. 38 classes sont présentes dans Data et définissent autant de catégories d’entités. Un tri peut être effectué en appuyant deux fois de suite sur le nom de la colonne « ClasseUri ». Les classes indiquées dans le schéma du modèle de données sont retrouvées.
Q42.2 Combien de notices sont de la classe foaf:Person ? : Lien
Il est ensuite possible de calculer le nombre de notices d’une classe donnée. La classe « foaf:Person » est choisie. Le préfixe « foaf » utilisé dans la partie « WHERE » est déclaré à l’aide de PREFIX. Le comptage est réalisé au niveau de SELECT avec l’instruction COUNT. En octobre 2022, plus de 4 300 000 personnes sont identifiées dans Data. Leur rôle n’est pas limité à celui d’auteur. Des traducteurs, éditeurs scientifiques, réalisateurs, acteurs et autres sont référencés.
# Effectif des notices de classe Personne
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT (COUNT (?peopleUri) AS ?effectif)
WHERE {
?peopleUri a foaf:Person. # motif de triplet
}
Effectif | |
1 | « 4311388 »^^<http://www.w3.org/2001/XMLSchema#integer> |
4.3 Ontologies
Une liste partielle des ontologies utilisées dans Data pour implémenter le modèle de données peut finalement être dressée. Des ontologies structurantes et descriptives pourraient être distinguées. Les effectifs des classes sont ensuite calculés à l’aide de requêtes SPARQL. On remarque ainsi que la BnF identifie de manière univoque plus de 19 millions de concepts différents.
1/ Ontologies structurantes
- RDF,
- <http://www.w3.org/2000/01/rdf-schema#Class> : 15
- <http://www.w3.org/1999/02/22-rdf-syntax-ns#Property> : 64
- SKOS
- skos:Collection : 3
- skos:Concept : 19 454 701, une classe centrale de Data
- skos:ConceptScheme : 1
- skos-thes:ConceptGroup : 3
- OWL (Web Ontology Language)
- owl:AnnotationProperty : 5
- owl:Class : 3
- owl:Ontology : 1
- owl:OntologyProperty : 0
- <http://www.w3.org/ns/sparql-service-description#Service> : 1
2/ Ontologies descriptives
- RDA entités FRBR (avec classes synonymes)
- Work (<http://rdaregistry.info/Elements/c/#C10001>) : 1 779 702, étudié dans le billet suivant
- Expression (/Elements/c/#C10006, c/#C10007) : 12 627 236, étudié dans le billet suivant
- Manifestation : 12 627 236, étudié dans le billet suivant
- W3C Time Ontology. Instant : 2 695
- WGS84 Geo Positioning. SpatialThing : 119 174
- FOAF (Friends Of A Friend)
- foaf:Person : 4 302 994, étudié dans la partie 3
- foaf:Organization : 418 247, étudié dans la partie 3
- foaf:Document : 5703
- Dublin Core
- dcmitype:InteractiveResource : 13 943
- dcmitype:Event : 61 423
- Bibo (The bibliographic Ontology). bibo:periodical : 362 022
- BNF-ONTO. bnf-onto/ExpositionVirtuelle : 5 168
- etc…
Les ontologies dites structurantes telles que RDF, RDFNS, OWL, SKOS sont définies en tant que standard par le W3C.
- Ontologies et référentiels utilisés, Web sémantique et modèle de données, BnF : Lien
4.4 Trouver l’IRI
L’IRI (Internationalized Resource Identifiers) correspond dans une base sémantique à un identifiant du type URL, susceptible de servir lors de la formulation de requêtes SPARQL. Quatre méthodes au moins permettent de trouver cet identifiant.
1/ Avec le moteur de recherche
Le moteur de recherche intégré à Data est accompagné d’un système de suggestion, et la classe de l’entité s’affiche sous forme d’étiquettes colorées. On accède ensuite à la page HTML qui nous intéresse. Le Permalien localisé tout en bas de la page HTML est ainsi obtenu. Il peut être aisément modifié pour obtenir l’IRI d’un concept. Il suffit de remplacer le nom du protocole « https » par « http ». Ainsi, si nous nous intéressons à « Bach-Archiv. Leipzig, Allemagne », le permalien est « https://data.bnf.fr/ark:/12148/cb12576410m », et l’IRI de l’organisme est donné par « http://data.bnf.fr/ark:/12148/cb12576410m ».


2/ À l’aide d’un moteur du web
Dans le cas d’une recherche portant sur « Bach », la réponse est difficile à trouver à l’aide du moteur de Data car les synonymes sont nombreux. Une manière simple de procéder consiste à chercher à l’aide d’un moteur de recherche classique du web « Jean Sébastien Bach data bnf ». On obtient ainsi le nom préférentiel choisi par la BnF. La page HTML donne l’IRI comme vu précédemment.
3/ Avec le Catalogue
Le Catalogue et Data partagent le même système d’identification, si bien qu’il est fort aisé de passer d’un système à l’autre, en modifiant le nom de domaine de l’URL. La recherche d’un IRI peut donc passer par une recherche dans la partie « Notices d’autorité » du Catalogue. On trouve ainsi par exemple pour les « Bach-Archiv. Leipzig, Allemagne » l’URL : « https://catalogue.bnf.fr/ark:/12148/cb12576410m ». L’IRI dans Data est alors : « http://data.bnf.fr/ark:/12148/cb12576410m ».
4/ Avec SPARQL
Plusieurs requêtes permettent de trouver l’IRI d’une entité à l’aide de SPARQL.
On peut rechercher par exemple, à partir du libellé préférentiel des Concepts, lorsque celui-ci est connu. On se sert alors de la propriété « skos:prefLabel » dans le motif de triplet principal, en précisant la langue recherchée.
Q44.1 Trouver l’IRI à partir du libellé préférentiel « Johann Sebastian Bach (1685-1750) » : Lien
# Trouver l'URI de Jean-Sébastian Bach
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
SELECT *
WHERE {
?peopleUri skos:prefLabel "Johann Sebastian Bach (1685-1750)"@fr.
}
peopleUri | |
1 | <http://data.bnf.fr/ark:/12148/cb118897907> |
Il est aussi possible de trouver l’IRI d’une personne à partir de son nom complet à l’aide de la relation « foaf:focus ». Le fragment « #about » peut aussi être supprimé de manière programmée, en se servant des expressions régulières.
Q44.2 Trouver l’IRI à partir du nom « Johann Sebastian Bach », méthode directe : Lien
# Trouver l'URI de Jean-Sébastian Bach
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT *
WHERE {
?peopleUriAbout foaf:name "Johann Sebastian Bach".
?peopleUri foaf:focus ?peopleUriAbout.
}
Q44.3 Trouver l’IRI à partir du nom « Johann Sebastian Bach », manipulation de l’IRI par expression régulière : Lien
# Trouver l'URI de Jean-Sébastian Bach
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT *
WHERE {
?peopleUriAbout foaf:name "Johann Sebastian Bach".
BIND(REPLACE(str(?peopleUriAbout), "#about", "") AS ?peopleUriString)
BIND(URI(?peopleUriString) as ?peopleUri)
}
Une autre recherche par expression régulière peut être lancée, en cherchant le motif « Johann Sebastian Bach » dans les libellés préférentiels. Le temps de réponse est supérieur à quinze secondes, pour cette requête qui inclut les clauses EILTER et CONTAINS.
Q44.4 Lister les entités dont le libellé contient « Johann Sebastian Bach » : Lien
# Trouver les concepts dont le libellé contient "Johann Sebastian Bach"
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
SELECT *
WHERE {
?conceptUri skos:prefLabel ?prefLabel.
FILTER (CONTAINS (?prefLabel, "Johann Sebastian Bach"))
}
LIMIT 10
1 | <http://data.bnf.fr/temp-work/bc13e7eabcffee7765e6196f30876d5e/> | « Johann Sebastian Bach »@fr |
2 | <http://data.bnf.fr/temp-work/4ada566caf9ab6deff102c2e30a6cd80/> | « La jeunesse mouvementée de Johann Sebastian Bach »@fr |
3 | <http://data.bnf.fr/temp-work/5a5887e52ad7672cec0bf82a7b250d54/> | « Die Kompositionen Johann Sebastian Bachs im Schemellischen Gesangbuch »@fr |
On cherche, pour conclure cette partie de plaisante manière, dix personnes dont le nom de famille est Bach. Dans cette dernière requête, deux motifs de triplets et un filtre sont appliqués.
Q44.5 Lister 10 personnes dont le nom de famille est exactement « Bach » ? Lien
# 10 personnes nommées Bach
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
SELECT * # afficher toutes les variables de la requête
WHERE {
?peopleUri foaf:familyName ?familyName. # motif de triplet
FILTER(?familyName = "Bach"). # filtre sur le nom de famille
?peopleUri foaf:name ?name. # affichage du nom
}
LIMIT 10
peopleUri | familyName | name | |
1 | <http://data.bnf.fr/ark:/12148/cb16311594h#about> | Bach | S. Bach |
2 | <http://data.bnf.fr/ark:/12148/cb132129979#about> | Bach | Jean-Jacques Bach |
3 | <http://data.bnf.fr/ark:/12148/cb14419790h#about> | Bach | Steven Bach |
Conclusion
Les fonctionnalités et contenus des bases constitutives de Data : le Catalogue général, la Base Archives et Manuscrits, de même que Gallica ont été ici explorées. Le modèle de données utilisé dans Data est brièvement présenté. Lancées sur le sujet aussi austère que populaire de Jean-Sébastien Bach, de premières requêtes exposent quelques aspects de la syntaxe et de son usage. Les questions posées se veulent génériques et le patronyme « Bach », le sujet de la « Musique baroque » peuvent être aisément changés pour quelque chose d’autre. Le prochain billet de cette série propose d’explorer le cœur de Data : la modélisation FRBR de l’information bibliographique, ainsi que sa structuration en trois entités : Œuvre, Expression et Manifestation. Dans un autre genre, nous nous intéresserons au non moins populaire roman pour la jeunesse « The Hobbit ». [A suivre…]
Articles sur data.bnf.fr et SPARQL
Plusieurs billets de ce blog explorent Data et son interrogation à l’aide de SPARQL.