Google et l’algorithme de la grippe

De même qu’Internet a bouleversé les modes de communication entre individus, la manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes.

Ce changement d’approche à l’égard des données numériques — exhaustives et non plus échantillonnées, désordonnées et non plus méthodiques — explique le glissement de la causalité vers la corrélation. On s’intéresse moins aux raisons profondes qui président à la marche du monde qu’aux associations susceptibles de relier entre eux des phénomènes disparates. L’objectif n’est plus de comprendre les choses, mais d’obtenir une efficacité maximale.
Prenons l’exemple de United Parcel Service (UPS), la plus grande compagnie mondiale de livraison. Elle a installé des capteurs sur certaines pièces de ses véhicules pour identifier les problèmes de surchauffe ou de vibration corrélés aux défaillances que ces pièces ont présentées par le passé. En procédant ainsi, elle peut anticiper la panne et remplacer les pièces défectueuses au garage plutôt que sur le bord de la route. Les données n’identifient pas le lien de causalité entre augmentation de la température et dysfonctionnement de la pièce ; elles ne diagnostiquent pas la source du problème. En revanche, elles indiquent à UPS la marche à suivre pour prévenir des incidents coûteux.
La même approche peut s’appliquer aux défaillances de la machinerie humaine. Au Canada, des chercheurs ont ainsi trouvé le moyen de localiser les infections chez les bébés prématurés avant que les symptômes visibles n’apparaissent. En créant un flux de plus de mille données par seconde, combinant seize indicateurs, parmi lesquels le pouls, la tension, la respiration et le niveau d’oxygène dans le sang, ils sont parvenus à établir des corrélations entre des dérèglements mineurs et des maux plus sérieux. Cette technique devrait permettre aux médecins d’intervenir en amont pour sauver des vies. Au fil du temps, l’enregistrement de ces observations pourrait également les aider à mieux comprendre ce qui provoque de telles infections. Cependant, lorsque la vie d’un nourrisson est en jeu, il est plus utile d’anticiper ce qui pourrait se produire que de savoir pourquoi.
L’application médicale illustre bien cette possibilité d’identifier des corrélations, même lorsque les causes qui les sous-tendent demeurent obscures. En 2009, des analystes de Google ont publié dans la revueNature un article qui a fait sensation dans les milieux médicaux (1). Ses auteurs affirmaient qu’il était possible de repérer les foyers de grippe saisonnière à partir des archives du géant de l’Internet. Celui-ci gère pas moins d’un milliard de requêtes par jour sur le seul territoire américain, et conserve scrupuleusement trace de chacune de ces opérations. Il a sélectionné les cinquante millions de termes les plus fréquemment saisis sur son moteur de recherche entre 2003 et 2008, puis les a croisés avec le fichier de la grippe des centres pour le contrôle et la prévention des maladies (Centers for Disease Control and Prevention, CDC). Objectif : découvrir si la récurrence de certains mots-clés coïncidait avec les apparitions du virus ; en d’autres termes, évaluer la possible corrélation entre la fréquence de certaines recherches sur Google et les pics statistiques enregistrés par les CDC sur une même zone géographique. Ceux-ci recensent notamment les consultations hospitalières des malades de la grippe à travers tout le pays, mais ces chiffres brossent un tableau souvent en décalage d’une semaine ou deux : une éternité dans le contexte d’une pandémie. Google, lui, peut fournir des statistiques en temps réel.
La société ne disposait d’aucun élément pour deviner quels mots-clés pouvaient fournir une indication probante. Elle s’est contentée de soumettre tous ses échantillons à un algorithme conçu pour calculer leur corrélation avec les attaques du virus. Son système a ensuite combiné les termes retenus pour tenter d’obtenir le modèle le plus fiable. Après cinq cents millions d’opérations de calcul, Google est parvenu à identifier quarante-cinq mots-clés — comme « mal de tête » ou « nez qui coule » — dont la réitération recoupait les statistiques des CDC. Plus leur fréquence était grande sur une zone donnée, plus le virus faisait de ravages sur ce même périmètre. La conclusion peut paraître évidente mais, à raison d’un milliard de recherches par jour, il aurait été impossible de l’établir par d’autres moyens.
Les informations traitées par Google étaient pourtant imparfaites. Dans la mesure où elles avaient été saisies et stockées à bien d’autres fins que l’altruisme sanitaire, fautes de frappe et phrases incomplètes pullulaient. Mais la taille colossale de la banque de données a largement compensé sa nature brouillonne. Ce qui en ressort n’est qu’une simple corrélation. Elle ne livre aucun indice sur les raisons qui ont poussé l’internaute à effectuer sa recherche. Etait-ce parce qu’il avait la fièvre lui-même, parce qu’on lui avait éternué au visage dans le métro, ou encore parce que le journal télévisé l’avait rendu anxieux ? Google n’en sait rien, et peu lui chaut. Il semble d’ailleurs qu’en décembre dernier son système ait surestimé le nombre de cas de grippe aux Etats-Unis. Les prévisions ne sont que des probabilités, jamais des certitudes, surtout lorsque la matière qui les alimente — des recherches sur Internet — est de nature aussi mouvante et vulnérable aux influences, en particulier médiatiques. Reste que les données de masse peuvent identifier des phénomènes en cours.
Nombre de spécialistes assurent que leur utilisation remonte à la révolution numérique des années 1980, lorsque la montée en puissance des microprocesseurs et de la mémoire informatique a rendu possibles le stockage et l’analyse de données toujours plus pléthoriques. Ce n’est vrai qu’en partie. Les progrès technologiques et l’irruption d’Internet ont certes contribué à réduire les coûts de la collecte, du stockage, du traitement et du partage des informations. Mais les données de masse constituent surtout la dernière manifestation en date de l’irrépressible désir humain de comprendre et de quantifier le monde. Pour sonder la signification de cette étape nouvelle, il faut jeter un regard de côté — ou plutôt, vers le bas.

Commentaires

Posts les plus consultés de ce blog

Dossier 1/4 - Dr. Judy Wood "Where Did the Towers Go ?" - WTC 11/09 - un ouvrage scientifique - une autre vérité

Le canon de Pachelbel, le son qui soigne