octobre 2015

La recherche face au big data

Grâce aux évolutions technologiques, le volume des données numériques disponibles explose. Téra-, péta-, exa-, zetta- voire yotaoctets, les ordres de grandeur atteignent des sommets… Ile au trésor ou mirage pour nos chercheurs ? Si cette densification des données laisse présager de nouvelles opportunités de recherche, notamment prospectives, encore faut-il parvenir à traiter ces éléments.

Il devient possible de collecter de grandes quantités de données et d’essayer de leur donner du sens a posteriori

Changement de paradigme

Alors que le raisonnement scientifique traditionnel consiste à émettre une hypothèse avant de la vérifier sur les données échantillonnées, l’arrivée du big data permet de raisonner à l’inverse. En effet, il devient possible de collecter de grandes quantités de données et d’essayer de leur donner du sens a posteriori. Dégager des tendances à partir de données brutes (data mining), c’est le nouveau métier des data scientists, remettant à l’honneur le concept de sérendipité qui consiste à trouver par des heureux hasards ce que l’on ne cherche pas. Responsable de l’équipe Bioinformatique théorique, fouille de données et optimisation stochastique (BFO) du laboratoire ICube1, Nicolas Lachiche précise que « la fouille de données permet d’extraire des masses d’informations mais c’est à l’utilisateur de faire le tri entre ce qu’il sait déjà et ce qu’il cherche, et surtout de vérifier la pertinence des résultats ».

Nouveaux challenges mathématiques et informatiques

Autre défi de taille : contrer l’explosion des volumes en augmentant les capacités de traitement

Selon Pierre Gançarski, professeur au sein de l’équipe BFO, le terme « big data » est quelque peu réducteur car, outre le volume de ces données, les défis à relever pour les chercheurs sont multiples. La finalité de la collecte des données amène des problématiques diverses. Les verrous sont alors tellement nombreux que chacun est expert dans son domaine. Compiler des données brutes de formats différents est déjà un challenge en soi. Ensuite, tandis que certains chercheurs sont spécialisés dans le nettoyage des données, les statisticiens sont eux en mesure de les échantillonner si besoin ou de gérer l’incertitude. D’autres essaient d’intégrer au mieux les expertises dans des algorithmes avancés en proposant des outils de traitement les plus génériques possibles mais capables de s’adapter au contexte des données. Autre défi de taille : contrer l’explosion des volumes en augmentant les capacités de traitement comme par exemple celles du temps ou de la consommation d’énergie. Plusieurs équipes de recherche1 s’intéressent ainsi au calcul parallèle, l’objectif étant d’automatiser la réalisation d’un calcul sur plusieurs machines en y répartissant les différentes opérations qui le composent et en récoltant ensuite les résultats. Enfin, dernier champ d’investigation mais pas des moindres : pérenniser données et résultats afin de pouvoir reproduire si besoin l’analyse et actualiser les résultats rapidement avec de nouvelles données (incrémentalité).

Vers l’interdisciplinarité

Géographie, biologie, environnement, politique… le big data est omniprésent et nécessite la mise en place de projets pluridisciplinaires. Mais faire travailler ensemble des experts de domaines radicalement différents n’est pas toujours aisé. Laurent Vallat2 et Frédéric Bertrand3 ont ainsi mis plusieurs années à avoir une sémantique commune dans le cadre du projet GenPred qui conjugue les données médicales et statistiques. De même, trouver des étudiants intéressés par un sujet à cheval sur deux thématiques est compliqué. Il n’existe en effet pas de structure pour l’interdisciplinarité et au niveau des publications, même si de nouvelles revues et des métiers spécialisés dans le big data ont fait leur apparition, chaque chercheur est évalué dans son domaine précis. « Nous sommes dans une phase de transition et il est primordial de sensibiliser les étudiants à ces nouveaux enjeux », conclut Laurent Vallat.

 

1 Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie

2 Maître de conférences– Faculté de médecine et Hôpitaux universitaires de Strasbourg, Inserm UMR S_1109, Labex Transplantex 

3 Maître de conférences à l’Université de Strasbourg, membre de l'équipe Modélisation et contrôle de l’Institut de recherche mathématique avancée (Irma)

Les V…errous du big data

Tous s’accordent à dire que le big data n’est pas qu’une question de volume. En effet, ces données ont de nombreuses autres caractéristiques, formalisées par des cabinets d’analyse sous la règle des « V ». Décryptage.

Volume : c’est évidemment la première caractéristique qui vient à l’esprit quand on parle de big data. Les données digitales croissent en effet chaque jour de manière exponentielle. Dans le domaine de la recherche, on a beau être très loin des chiffres astronomiques de Google ou Facebook, le volume des données est pourtant souvent devenu impossible à traiter avec des méthodes traditionnelles.

Variété : les données ne sont pas structurées et peuvent être très hétérogènes (textes, images, logs, vidéos… ).

Vitesse (ou vélocité) : le flux des données est continu, l’information souvent disponible en temps réel et parfois éphémère. La fréquence de collecte des éléments est donc de plus en plus importante, contraignant les analystes à améliorer leur réactivité pour traiter ces données.

Variabilité : la nature et la signification des données peuvent changer avec le temps et selon le contexte, ce qui complexifie leur traitement.

Véracité (ou validité) : certaines données sont manquantes, d’autres comprennent des erreurs ou proviennent de sources non fiables (réseaux sociaux, opinions…). Il faut prendre en compte cette incertitude lors de leur traitement.

Valeur (ou valorisation) : le big data peut générer de la valeur, qu’il convient de caractériser (scientifique, économique ou encore stratégique).

Visualisation : afin de pouvoir les exploiter, il est important de représenter les données de manière lisible et accessible.

Elodie Legrand