La BnF et SPARQL. Partie 1 : les bases constitutives de Data

La BnF (Bibliothèque nationale de France) lance sa base sémantique data.bnf.fr en 2011 avec l’ambition d’offrir un accès simple, ouvert et simultané aux contenus de son Catalogue général, de sa base Archives et manuscrits, de même que de sa bibliothèque numérique Gallica. Le service considéré comme un produit bibliographique parmi d’autres fut déployé très progressivement et régulièrement amélioré, tant au niveau du modèle de données, que de l’ergonomie du site et de ses fonctionnalités. Il reste en cours d’évolution. Une interrogation à l’aide de SPARQL (SPARQL Protocol And RDF Query Language) se montre possible depuis 2014.

Plusieurs sortes de choses peuvent être recherchées dans data.bnf.fr . 1/ Des documents et listes de documents publiés, livres, périodiques, enregistrements sonores, cartes et autres. 3/ Des documents non publiés, des manuscrits, pièces d’archives et de musée. 3/ Des spectacles, des expositions 4/ Des listes d’agents (individus, organisations et familles) susceptibles de jouer divers rôles lors des processus de création, d’édition, de réalisation 5/ Des répertoires de concepts, sujets, lieux et périodes temporelles. 6/ Ces éléments liés entre eux.

En matière de couverture, data.bnf.fr ne contient pas toutes les notices de chacune des bases constitutives, ni l’entièreté de leur richesse catalographique, ni la même fréquence de mise à jour. Cependant un accès ergonomique et raisonné à de nombreuses informations se montre possible. Des liens renvoient directement vers les bases sources et relient entre elles les notices.

Au niveau technique, la base sémantique est motorisée par CubicWeb, un logiciel opensource développé par la société Logilab. Proposée également pour interroger Wikidata et data.idref.fr, l’interface d’assistance à la formulation de requêtes SPARQL Yasgui (Yet Another SPARQL Graphic User Interface) de Triply apporte une certaine aide. Une autre interface nommée Sparnatural développée par la société Sparna est disponible. Sébastien Peyrard, responsable du service ingénierie des métadonnées coordonne le projet. Que trouve-t-on dans data.bnf.fr ? Comment lancer une requête SPARQL aidé des interfaces ? Quelles requêtes se montrent pertinentes pour explorer les contenus et éventuellement les télécharger dans le but de compléter vos propres données ?

Ce tutoriel présente dans une première partie les bases constitutives de Data, et donne des exemples d’interrogations à l’aide des interfaces traditionnelles. L’exemple de Bach, maître du contrepoint et de la musique baroque sert entre autres d’exemple. Les aspects web sémantique et SPARQL seront abordés dans une deuxième partie.

Plan

  • Partie 1 : les bases constitutives de Data
    1. Organisation générale
    2. Le Catalogue général
    3. Archives et manuscrits
    4. Gallica
    5. Vocabulaires et dictionnaires
    6. URI et ARK
  • Partie 2 : les entités de Data
    1. Entités Personnes
    2. Entités Organismes
    3. Entités RAMEAU
    4. Entités Noms géographiques
  • Partie 3 : modèles de données et théories
    1. Modèles théoriques
    2. FRBR (1991-2016)
    3. LRM (2017-)
  • Partie 4 : le modèle de données de data.bnf.fr
    1. Vue d’ensemble
    2. Ontologies généralistes
    3. Ontologie spécifique
    4. Dictionnaires de valeurs
  • Partie 5 : autres requêtes SPARQL
    1. Exploration des classes
    2. Exploration des propriétés
    3. Les documents

1. Organisation générale

Le site data.bnf.fr (Data) est présenté par la BnF comme un produit dérivé, constitué à partir de plusieurs autres bases et dont le fonctionnement est non critique pour les activités internes. Alimenté par le Catalogue et les fichiers d’autorité, par Archives et manuscrits de même que par Gallica, la base présente des pages relatives aux auteurs, aux thèmes et aux œuvres et lie entre eux ces contenus. Elle intègre à la fin 2021 10 millions de notices bibliographiques rattachées à 4 millions de notices d’autorités du Catalogue général. Un million de liens vers Gallica et 5 000 liens vers les expositions virtuelles peuvent être explorés. D’autres informations quantitatives à propos de la BnF en date de 2021 :

  • 15 millions de notices bibliographiques dans l’ensemble des bases
  • 780 000 notices de publications périodiques
  • 200 000 notices de sujets dans le Catalogue
  • 60 000 notices de spectacles
  • 4 millions de notices de personnes dans le Catalogue
  • 4 millions de notices dans data.bnf.fr, 19 000 visiteurs uniques par jour
Les bases constitutives de data.bnf.frLien

Avec cette architecture informatique, Data se montre asynchrone : des mises à jour régulières des contenus sont nécessaires et régulièrement organisées (tous les ans ?). Un plan de développement (2020-2024) a été récemment lancé. La Bibliothèque nationale entreprend en 2021 des améliorations visant à enrichir et mettre à jour les alignements entre les données et des bases de données extérieures (VIAF, Wikipédia, Wikimedia Commons, Wikidata, GeoNames). Dans le cadre d’un partenariat avec le département de l’innovation numérique du ministère de la Culture et les Archives nationales, l’interface Sparnatural a été ajoutée et offre la possibilité d’assister l’utilisateur dans la sélection de listes d’entités. Une description des bases constitutives de Data est proposée préalablement à l’explorations des contenus.

Part des notices du Catalogue général versées dans data.bnf.fr en 2020 : Lien20192020
a) Entités Personne98,5%99,6%
b) Entités Organismes99,3%99,9%
c) Entités Titres83,0%99,9%
d) Entités RAMEAU100,0%100,0%
e) Entités Noms géographiques99,2%99,1%
f) Notices de spectacles99,9%99,9%
g) Périodiques62,9%60,6%
h) Monographies74,5%74,0%
  • La BnF en chiffres, 2021 : Lien
  • Rapport d’activité 2021 – L’information et les autres services en ligne : Lien
  • data.bnf.fr. Feuille de route – 2020-2024 : Lien

2 Le Catalogue général

Le Catalogue général représente la base la plus importante en volume de la BnF. Ce catalogue partagé entre plusieurs bibliothèques s’enrichit régulièrement grâce au traitement bibliographique des collections entrées au titre du dépôt légal, par acquisition et don. Le format INTERMARC est utilisé par les catalogueurs professionnels (environ 300) d’un réseau de bibliothèques partenaires, essentiellement municipales et universitaires. On y trouve des livres, périodique, magazines et autres choses assez diverses.

Les notices d’autorités y sont également référencées. Elles nomment de manière normalisée les individus et plus largement familles, groupes de personnes, sociétés qui jouent divers rôles et contribuent à la réalisation des œuvres originales référencées, ou bien sont pour certains sujets de ces œuvres. Objet principal de la Transition bibliographique, la structuration du Catalogue lui-même se montre en cours d’évolution et nous reviendrons dans la partie théorique sur les ambitions affichées.

De manière pratique, la requête “Johann Sebastian Bach” (en notation internationale) peut être lancée et 18 204 notices bibliographiques sont trouvées. Des facettes permettent d’affiner les résultats en n’affichant qu’une partie des résultats. On peut ainsi par exemple sélectionner dans la barre latérale “Nature de document > Musique notée” suivi de “Localisation > Consultable sur Gallica” pour accéder ainsi à 103 partitions numérisées. Un manuscrit autographe est choisi : Ich habe meine Zuversicht. Il s’agit d’un fragment de la 188ème cantate, numérotée BWV 188 (d’après le Bach-Werke-Verzeichnis). Un lien vers Gallica permet de visionner le fragment manuscrit, éventuellement accessible en haute résolution à l’aide du format IIIF. Le fragment papier est localisé en réserve à Richelieu-Louvois. La notice du fragment peut être exportée en divers formats de catalogage.

Notice dans le Catalogue du fragment d’une partition manuscrite localisée à la BnF : Lien

En mode recherche avancée, le formulaire permet de lancer une requête en sélectionnant “Dans toute la notice” ou bien “Auteur”, “Titre”, “Sujet, genre ou forme”, “Notes”, “Données éditoriales, ISSN, ISBN, etc.”, “Données matérielles et techniques”, “Langue”, “Date”, “Cote et données de gestion”. Nous choisissons alors de chercher “Johann Sebastian Bach” dans “Auteur” et on obtient 16 717 notices.

Le Catalogue ne se montre pas adapté pour effectuer une recherche sur la liste des œuvres originales de Bach. Un spécialiste du Cantor de Leipzig à la recherche de manuscrits originaux pourrait se tourner vers Bach Digital, la base de données collaborative qui contient des documents numérisés des œuvres originales de J. S. Bach et de toute sa famille. Des originaux y sont rassemblés en provenance de diverses archives et bibliothèques localisées en de multiples contrées.

Il est cependant possible d’accéder à l’aide du Catalogue aux 22 partitions manuscrites dont Bach est l’auteur et qui sont numérisées dans Gallica. Parmi celles-ci deux sont des fragments autographes. Au niveau technique, on remarque le formalisme de l’URL d’une notice du Catalogue : (protocole https, nom de domaine, protocole ARK, identifiant BnF, identifiant opaque du document) et nous reviendrons régulièrement sur ce formalisme.

En ce qui concerne les exports, de nombreuses possibilités existent, centrées autours des formats de description Unimarc, Intermarc et Dublin Core (uniquement pour les notices bibliographiques). L’interface web permet des exports en CSV simple, CSV avancé, SGB (Système de Gestion de Bibliothèque). Il est aussi possible d’extraire de manière experte une sélection de notices encapsulées dans du XML à l’aide du service SRU (Search/Retrieve via URL). La recherche à l’aide de ce service de “Johann Sebastian Bach” et de “BWV 188” donne 35 résultats exportés en XML.

  • Transition bibliographique, des catalogues vers le web de données : Lien
  • Bach, Johann Sebastian (1685-1750) forme internationale, notice de personne : Lien
  • Notice bibliographique du livre “Jean-Sébastien Bach”, possible à emprunter dans plusieurs des bibliothèques gérées conjointement par la BnF : Lien
  • Liste complète des œuvres de Jean-Sébastien Bach sur Wikipédia : Lien
  • Bach digital : Lien
  • BnF, API et jeux de données, Le catalogue général de la BnF : Lien

3 Archives et manuscrits

Les fonds d’archives constituent un ensemble de documents constitués autours d’une personne (un donateur), d’un thème ou bien d’un type de document. La base Archives et manuscrits de la BnF contient des manuscrits médiévaux et modernes, les fonds de personnalités du monde de l’art et du spectacle, des collections de numismatique, médailles et antiques. Le format de catalogage pratiqué est la Description archivistique encodée (EAD). Du côté utilisateurs, une autre interface d’interrogation est proposée, facilitant la recherche des collections et à l’intérieur de celles-ci des contenus.

On obtient 54 résultats à la requête “Johann Sebastian Bach”. Deux sortes de facettes facilitent l’exploration des fonds. “Trouvé dans” propose les options “Nom (46)”, “Sujet (5)”, “Titre d’œuvre (22)”, “Intitulé (20)”. Le groupe de facettes “Affiner” propose de détailler “Départements”, “Noms”, “Types de documents”, “Langues”, “Sujets”, “Lieux”, “Dates”.

Les localisations physiques des fonds (Départements) de même que leur organisation arborescente se trouvent mis en avant. Plusieurs pièces d’un même fonds peuvent en effet se montrer pertinentes et contenir des documents de diverses natures (enregistrement sonore, texte manuscrit, texte imprimé). De manière générale, les fonds s’avèrent relativement récents, postérieurs à 1900, et l’on trouve des dons de familles suite au décès d’instrumentistes et de musicologues comme par exemple Yvone Rokseth, Léonce de Saint-Martin. Le fonds d’Olivier Messiaen, grand interprète de Bach et également compositeur est signalé. Géré par la Fondation Olivier Messiaen, il se trouve en cours de classement. D’autre fonds concernent le spectacle et proviennent de théâtres (Athénée, Opéra de Paris, Théâtre de la Ville).

Une recherche avancée dans la base est également possible. L’interrogation dans tous les mots de BWV et dans Sujet de “Johann Sebastian Bach” donne parmi les résultats le fonds Yvone Rokseth localisé au site Richelieu. Le site Richelieu est le berceau historique de la BnF. Il rassemble la bibliothèque de l’Institut national d’histoire de l’art (INHA) et la bibliothèque de l’École nationale des Chartes, le musée de la BnF. On apprend ainsi que ce fonds fut constitué de 1910 à 1948, qu’il est constitué de 13 boîtes et 640 volumes. Des informations sont données en page d’accueil sur la biographie d’Yvone Rokseth ainsi que sur les sous-collections créées par les archivistes.

Exploration du sous-fonds “Œuvres musicologiques” du fonds Rokseth : Lien

Il est possible de chercher de trois manières dans ce fonds à l’aide des icônes localisées de manière verticale à gauche. 1/ Le mot “BWV” peut être cherché au sein du fonds 2/ Une navigation dans l’arborescence complète du fonds est également disponible. 3/ Un index des sujets et provenances des papiers est présent. On trouve ainsi la possibilité de rebondir tout en restant dans le fonds sur des noms de personnes, sur des titres d’œuvres, des sujets et des types de documents.

Dans notre exemple, le sous-fonds “Œuvres musicologiques” contient une note sur certaines compositions de Bach replacées dans leur contexte par Yvonne Rockseth. La structure des URL d’Archives et manuscrits est également basée sur ARK :

Un document concernant Bach et numérisé dans Gallica est recherché. Une collection de manuscrits et gravures anciennes et originales acquise par la BnF est choisie. Elle se trouve accessible sous “Département des Manuscrits > Français > Nouvelles acquisitions françaises > NAF 22734-22741“. L’interface assez minimaliste n’autorise qu’un export de la notice en PDF. La description au format EAD du fonds n’est pas accessible.

Si l’on explore la collection NAF 22734-22741 à l’aide de l’onglet d’exploration de la hiérarchie, on trouve un étrange album relié sous forme de livre qui rassemble des autographes, des dessins et portraits de personnages célèbres. L’objet composite est créé au XIXe siècle par l’homme politique Alexandre Bixio. Un portrait de Bach s’y trouve décrit et présent sous la cote “NAF 22734 (cote) • I. A – B” en vue 64 recto. Un lien vers Gallica donne accès au portrait, visible si on le souhaite au format IIIF, particulièrement adapté au visionnage d’images en haute définition.

Des fonds en provenance de bibliothèques partenaires amenées également à cataloguer en EAD, ou bien constitués lors d’événements spéciaux sont également référencés dans Archives et manuscrits. Outre Data, diverses bases de la BnF se montrent constitutives du Catalogue collectif de France (CCFr). Ainsi, Archives et manuscrits peut être interrogé conjointement avec le Catalogue général des manuscrits (CGM), le Répertoire des manuscrits littéraires français du XXème siècle (Palme), le Catalogue en ligne des archives et des manuscrits de l’enseignement supérieur (CALAMES) dans une interface dédiée.

  • Le Répertoire de Fonds du CCFr, BnF : Lien

4 Gallica

La BnF numérise actuellement plus d’un million de pages par mois à partir de ses collections patrimoniales. Elle s’appuie sur ses ateliers internes à hauteur de 20% et sur des prestataires choisis dans le cadre de marchés publics. Cette production est complétée par des documents numériques produits dans le cadre d’accords conclus avec d’autre bibliothèques. La BnF propose également une application Gallica iOS et Android.

Nous avons déjà vu les relations qui existent entre le Catalogue général, Archives et manuscrits et Gallica en consultant un fragment de partition autographe, de même qu’un portrait de Bach. En ligne depuis 1997, Gallica est la bibliothèque numérique la plus connue de la BnF. La base est élaborée par l’institution épaulée d’un réseau de 270 partenaires en 2022. Elle s’enrichit chaque semaine de nombreuses nouveautés pour donner aujourd’hui accès à plusieurs millions de documents.

L’interface propose un moteur de recherche standard, une recherche avancée, de même qu’une interface dédiée à l’exploration thématique des contenus. Une recherche menée sur “Johann Sebastian Bach” donne 3802 résultats. Les facettes localisées à gauche facilitent la navigation et l’affinement de la requête. Il est possible ainsi de sélectionner “Type de document > Enregistrement sonore” puis de choisir dans cet ensemble “BWV 846”, la cote de “Prélude et fugue en ut majeur” de Bach.

Une adaptation jazz du prélude est choisie. Il s’agit d’un enregistrement de 1960 écrit par Bruno Coquatrix sous le titre “Play Bach”, réalisé par Jacques Loussier au piano, Pierre Michelot à la contrebasse et Christian Garros à la batterie, et préservé au titre du dépôt légal dans la phonothèque nationale. La notice donne accès à un extrait de 30 secondes des plages de chaque face du disque 33 tours 30 cm, de même qu’au numéro de notice de l’enregistrement dans le Catalogue général. On remarque en ce qui concerne les URL sur Gallica :

Nous pouvons remonter depuis la partie “En Savoir Plus” vers la notice du disque dans le Catalogue pour nous apercevoir que deux notices différentes existent pour le même enregistrement :

Le système centralisé SPAR (Système de Préservation et d’Archivage Réparti) est dédié à la préservation à long terme des métadonnées et des fichiers générés par les diverses opérations de numérisation et de sauvegarde de diverses bibliothèques de la BnF.

  • Rapport d’activité 2021 – Gallica et la politique de diffusion numérique des collections : Lien
  • La numérisation à la BnF : Lien
  • SPAR (Système de Préservation et d’Archivage Réparti) : Lien

5. Vocabulaires et dictionnaires

Des dictionnaires supplémentaires servent à l’élaboration des données dans le Catalogue et sont repris et listés dans Data. Ils viennent normaliser et pour certains encoder de manière normalisée des choses comme les pays, les langues, les rôles joués par les agents, les genres musicaux, les référentiels utilisés pour les alignements, etc.

  • Vocabulaires employés à la Bibliothèque nationale de France : Lien

6. URI et ARK

Data de même que ses bases constitutives donnent accès à des données souhaitées identifiées de manière pérenne. Le choix du système ARK (Archive Resource Key) a été fait à la BnF. Une politique de pérennisation des ARK est menée, si bien qu’en cas de fusion de notices par exemple, l’ancien ARK redirige le navigateur de l’utilisateur vers le nouvel enregistrement, de manière transparente pour l’utilisateur.

  • Du numéro FRBNF à l’identifiant ARK, Étienne Cavalié, 2017 : Lien
1 Star2 Stars3 Stars4 Stars5 Stars (Pas encore noté)
Loading...

Laisser un commentaire