Avec le paradigme de science ouverte, les données de la recherche ont vocation à être accessibles et partageables en ligne. Dans cet esprit, l’université met en place son entrepôt de données.
Lorsqu’elles sont accessibles en ligne et partagées, les données de la recherche assurent la transparence, évitent la répétition d’expériences déjà faites, facilitent les nouveaux travaux et accélèrent la recherche. « C’est un cercle vertueux. Créer un entrepôt de stockage fait partie du deuxième pilier de la politique de science ouverte de l’université », rappelle Stéphanie Cheviron, data librarian au Service des bibliothèques. « S’il existe de nombreux entrepôts thématiques, à l’échelle nationale, européenne et internationale, certaines disciplines restent orphelines. Cet entrepôt est une solution pour les chercheurs qui ne savent pas où déposer leurs données. D’autres aiment aussi déposer localement. » Autre avantage : garder la main sur les données et créer un entrepôt sur mesure, interopérable avec les autres logiciels de l’université comme UnivOak, la plateforme de dépôt des publications.
Le dépôt dans cet espace ne sera pas obligatoire pour les chercheurs strasbourgeois. Si un entrepôt national ou international existe dans une discipline ou une thématique, il sera à privilégier.
Les données déposées devront respecter les principes FAIR : faciles à trouver, accessibles, interopérables et réutilisables. Principes incontournables pour de bonnes pratiques en gestion de données. « Ce ne sera pas une sorte de gros disque dur externe. Le dépôt demande une réflexion en amont. Les données devront être « aussi ouvertes que possible, aussi fermées que nécessaire »1, respecter le droit des données à caractère personnel, et être décrites par des métadonnées (auteur, date, lieu, etc.). Une licence libre y sera apposée qui définit les conditions de réutilisation », précisent Stéphanie Cheviron et Virgile Jarrige, chef de projet à la Direction du numérique.
« S’il existe de nombreux entrepôts thématiques, certaines disciplines restent orphelines. Cet entrepôt est une solution pour les chercheurs qui ne savent pas où déposer leurs données. »
Une première phase d’étude en 2020 a permis, entre autres, de choisir l’application web, Dataverse. Ce logiciel libre, créé par l’Université d’Harvard, est utilisé par de nombreux centres de recherche, et il rassemble une grande communauté d’utilisateurs et de développeurs. La phase projet a débuté fin 2020, elle est menée conjointement par la Direction du numérique et le Service des bibliothèques. Plus de 2 pétaoctets2 de stockage sont dédiés à l’entrepôt dans le datacenter de l’université. Une phase de test débute avec la complicité d’un groupe de chercheurs utilisateurs, représentatif des différentes disciplines.
L’équipe prévoit une ouverture progressive, à partir de la rentrée 2021, pour mieux apprécier l’usage et les besoins, ajuster les fonctionnalités, et absorber graduellement la masse des données, car certaines, comme l’imagerie en biologie, peuvent être très volumineuses. Reste à définir les conditions d’utilisation et de fonctionnement, le rôle des administrateurs, modérateurs et curateurs. Les données seront accessibles à toute la communauté scientifique et plus largement à tout citoyen, comme le veut l’open science.
1 1 pétaoctet = 1015 octets, soit un million de milliards d’octets.
2 Principe issu du programme de financement de la recherche Horizon 2020 de la Commission européenne.