Au cours de ces deux dernières années, on a généré autant de données que depuis le début de l’humanité ! On est pris de vertige face à cette explosion d’octets, mais « gardons raison », dit Hervé Wozniak, directeur de l’Observatoire astronomique.
La notion de big data est toute relative, car elle évolue très vite. Hervé Wozniak en a une définition personnelle : « A chaque époque, on a été « big » par rapport à ce que l’on pouvait stocker et restituer auparavant. Cela devient du big data quand les données d’origine ne sont plus transportables et doivent rester dans leur lieu de production, ce qui est le cas pour l’observation ou la simulation numérique, ou bien encore lorsqu’il faut se servir d’outils pour en isoler des éléments. »
Quand on parle de big data, on a tendance à se référer à la quantité de données qui transitent chaque jour par Google ou les réseaux sociaux. « Mais elle ne constitue que la partie visible de l’iceberg », objecte Hervé Wozniak, « car il faut avoir généré en amont 10 fois, 100 fois, voire 1000 ou 10 000 fois plus de données brutes !»
« En matière de data, il faut donc distinguer ce que l’on génère et ce que l’on veut analyser »
Les très grands télescopes, ou le Cern (Organisation européenne pour la recherche nucléaire) ou encore les plateformes d’imagerie biologiques, notamment génomiques, produisent d’énormes volumes de données. Un ordre d’idée : les données d’un seul génome représentent un gigaoctet. Et le Large Synoptic Survey Telescope (LSST), dont la construction a commencé au Chili en avril 2015, produira 15 téraoctets d’images chaque nuit.
Ces very big data sont réduites dans des centres de calcul très performants afin de conserver et transmettre des données à valeur ajoutée, visualisables, fouillables et analysables. « En matière de data, il faut donc distinguer ce que l’on génère et ce que l’on veut analyser ». Mais l’abondance de données ne garantit cependant pas leur compréhension. « Il y a de vrais besoins, dans de nombreux domaines, la santé, l’environnement... Mais il n’y aura pas de réponses s’il n’y a pas de vraies questions ! Toutes ces données qui déferlent obligent encore plus à réfléchir à ce que l’on veut mettre à disposition, à penser au sens de ce qu’on recherche, à se donner et donner les moyens de le comprendre... Et cela, il n’y a que l’humain, incontournable, qui puisse le faire. »
James Maar de la NSA (National Security Agency) a exprimé dès 1996, dans un rapport de la National Academy of Science, la notion de massive data set (jeux de données massives). Il affirmait alors s’intéresser à ces données massives depuis 17 ans... Mais c’est sans doute John Mashey, responsable de la recherche chez Silicon Graphics Inc. (SGI), à qui l’on doit, à la même époque, le terme big data.