Des milliards et des milliards de données. 1969 : Internet est créé par quatre universités américaines qui souhaitaient communiquer et partager leurs données plus rapidement, plus facilement. 1971 : le premier courrier électronique est envoyé par Ray Tomlinson, également américain. 1972 : Internet est présenté au grand public. 2010 : près de 1.000 milliards de Gigaoctets de données sont accessibles sur Internet. 2015 : cette année-là, le cabinet d'analyse Gartner estime que le volume des données disponibles sur Internet sera de 8 Zettaoctets, soit 8.000 milliards de Gigaoctets. Cela correspond à près de 250 milliards de DVD.
>> Comment tirer pleinement partie de toutes ces informations en ligne ? C'est tout l'enjeu de "Big Data".
Qu'est-ce que c'est ? En anglais, Big Data signifie "grande quantité de données". Il s'agit d'une problématique engendrée par l'immense quantité de données aujourd'hui publiées sur Internet : des listes de personnes, le contenu de livres entiers, des conversations en ligne ou encore des flux de sites d'actualités… La liste n'est pas exhaustive, justement car Internet est fait de tous les types de données.
L'enjeu : comment exploiter au mieux cette immense potentiel ? Voici trois exemples d'outils créés pour analyser, trier puis exploiter ces données au quotidien. Et ce en temps réel.
Les atouts. L'exploitation de données massives peut aboutir à des outils particulièrement utiles. Voici trois exemples de Big Data au quotidien :
>> Gmail. Oui, il s'agit bien de Big Data : chaque jour, la boîte mail version Google analyse les centaines de millions de messages électroniques échangés. Gmail sélectionne alors des mots-clés au sein des emails et sélectionne, dans sa base de données, des annonces de publicités liées au contenu de ces messages. Par exemple, lorsque vous évoquez un futur voyage en Thaïlande dans un message avec un ami, Gmail va instantanément placer un bloc de publicité, sur la droite de la page, proposant des billets d'avion pas cher ou des logements à Bangkok.
>> Kinect. Le détecteur de mouvements conçu par Microsoft pour sa console de jeux Xbox 360 est une sorte de caméra intelligente. Le module, à placer au devant ou sur son téléviseur, filme le joueur en direct devant son écran et retranscrit les gestes du protagoniste pour lui permettre d'interagir avec l'environnement virtuel affiché sur la TV. Exemple : il est possible de simuler une descente à ski, le joueur se place devant l'écran et adopte la même position que sur de véritables skis. À chaque virage, le joueur se penche et l'avatar tourne à l'écran, en direct. C'est aussi ça la Big Data : analyser chaque mouvement du corps en temps réel pour le retranscrire sur le téléviseur, en passant par la console.
>> Netflix. Ce service de vidéos à la demande, leader aux États-Unis, n'est pour le moment pas accessible en France. Mais il a récemment intégré un système de tri de ses films selon les 100 millions de commentaires laissés par ses utilisateurs, pour mieux coller aux goûts des internautes. Voici le principe : des centaines d'affiches de films apparaissent au centre. À droite, un champ pour les films que vous aimez, à gauche idem pour ceux que vous n'aimez pas. L'internaute glisse les affiches d'un côté et de l'autre de l'écran. Et au fur et à mesure, la liste s'affine. Au final, les films proposés sont censés répondre de manière précise aux goûts des abonnés au service.
Les limites. Un tel enjeu implique des conséquences et des dérives de taille.
>> "La Big Data n'est pas magique". Ce sont les mots de Damien Cudel, de la division Marketing de Microsoft. L'éditeur de logiciel, qui accompagne les entreprises dans les solutions de stockage des données, est conscient des nombreux freins se dressant déjà face à la "Big Data". Notamment dans le monde professionnel. "Le premier écueil consiste à se poser les mauvaises questions lors d'une recherche de données", explique Bernard Ourghanlian, directeur technique et sécurité chez Microsoft. Si par exemple un portail de commerce en ligne arrive à la conclusion que tel modèle de chaussures est préféré par ses internautes, puis les met en avant sur son site sans vérifier l'état de ses stocks, la Big Data ne sert à rien. "Le tri des données est complexe. Si le calcul n'est pas adapté au business de l'entreprise, cela peut aboutir à un gros échec", prévient Joannès Vermorel, fondateur de Lokad, qui propose des solutions aux entreprises pour exploiter les données massivement récoltées.
>> Quid des données privées ? Les sites qui utilisent les données à des fins commerciales ne communiquent que rarement sur les droits des internautes. La Commission nationale de l'informatique et des libertés (CNIL) impose actuellement l'anonymat des données. Mais plus les données récoltées sont détaillées, plus il est facile d'identifier la personne derrière ces données. Le droit à l'anonymat serait alors totalement remis en question.
Quels enjeux à venir ? C'est probablement l'un des plus grands défis informatiques des prochaines années. Les données des bibliothèques (numériques ou physiques), celles des très grandes entreprises et bien entendu celles des administrations, leur analyse et la possibilité de les exploiter constituent un des enjeux majeurs du futur d'Internet. Une hypothèse qui peut faire peur : des chercheurs en Big Data planchent actuellement sur le comportement du cerveau humain. Si un jour les résultats de ces analyses seront croisés avec celles des sites marchands, le ciblage publicitaire sera à son paroxysme.