
OpenRefine est un logiciel de bureau opensource dédié à l’exploration, au nettoyage, à la transformation et à l’enrichissement des données, une activité parfois appelé data cleansing ou encore data wrangling. Mais pourquoi wrangling ? En fait un wrangler est un cowboy et donc ici le data wrangler peut être vu comme le cowboy de la donnée. Il rassemble ses données éparpillées de la même manière qu’un cowboy rassemble ou trie son bétail. Le terme utilisé dans le langage courant aux États-Unis sous-entend que l’activité est laborieuse, déplaisante, fatigante, mais que celle-ci doit être faite pour aboutir à un travail bien fait. Ramené à la donnée, cela représente 80% du temps passé par les équipes informatiques, les analystes métiers ou les data scientists. Le data wrangling se positionne en amont de la visualisation, de la publication et de la curation des données.
Nous étions donc 7 membres des AHP et de la MSH Lorraine à nous former au data wrangling à l’aide d’OpenRefine, un logiciel java susceptible de fonctionner sous tout système d’exploitation. Philippe Houdry, formateur de l’INIST et spécialiste des traitements sous OpenRefine, Python, outils et langages apparentés présente l’outil. La journée se déroule en 2 x 2h au cours desquelles les fonctionnalités de base sont abordées. La “réconciliation” des données avec Wikidata conclut la session.
- Présentation d’OpenRefine
- Installation, lancement, mise à jour, désinstallation
- Import des données, gestion des projets
- Espace de travail, exploration et nettoyage des données
- Transformation des données
- Export des données et des traitements
- Alignement de données avec un référentiel externe (Wikidata)
- Introduction à quelques fonctionnalités avancées
Lien vers le diaporama CC-BY-NC :
Webographie
- Site officiel : https://openrefine.org/
- Documentation officielle 3.5 : https://docs.openrefine.org/
- Cours de M. Saby, 2020 : https://msaby.gitlab.io/tutoriel-openrefine/index.html
- Google group : https://groups.google.com/g/openrefine-dev
- Traductions en mode collaboratif : https://hosted.weblate.org/projects/openrefine/#languages
- Reconciliation Service API v0.1, A protocol for data matching on the Web, 2022, W3C : https://reconciliation-api.github.io/specs/0.1/
- Qu’est ce que le Data Wrangling ?, Victor Coustenoble, 2018, Trifacta : Lien