En partenariat avec RTFlash N° 1107

Edito du Sénateur René Trégouët

Selon les estimations de l’annuaire économique numérique de Statista, le monde stocke actuellement, annuellement, 20 fois plus de données qu’il y a 10 ans. Statista estime à 50 zettaoctets le volume de données stockées en 2020. Pour mémoire, un Zettaoctet équivaut à un milliard de milliards d’octets, soit un milliard de disques durs d’un TO (Téraoctet) ou de 1000 Go. Le cabinet IDC prévoit, quant à lui, que le volume total de données produites atteindra les 175 zettaoctets en 2025 et…2000 zettaoctets en 2035. Une autre façon de mieux réaliser l’incroyable explosion de la quantité d’informations numériques est de rappeler que l’Humanité produit maintenant en une semaine autant d’informations que ce qu’elle a généré entre l’apparition des premières grandes civilisations, il y a 5000 ans, et l’an 2000 !

Pour conserver cette immense masse de données, l’industrie du numérique compte actuellement près de 4800 centres de stockage (data centers) dans le monde, répartis dans 127 pays. Des progrès considérables ont été accomplis dans la capacité de stockage des disques durs (qui a été multipliée par 1000 en 25 ans, pendant que le coût de stockage était divisé par cent et descendait à 2 centimes le Go) Parallèlement, la technologie « Full Flash », matérialisée par l’apparition de disques SSD (utilisant des mémoires non volatiles) de grande capacité, plus rapides et moins gourmands en énergie, a encore repoussé les limites en matière de capacité de stockage des centres et serveurs informatiques. Tout le problème est que, depuis le début de siècle, ces avancées techniques ne permettent plus de compenser la foudroyante accélération de la production globale de données numériques sur le Net, et les besoins croissants de stockage numérique qui en résultent.

En 2018, dans un rapport sur la consommation d’énergie dans les centres de stockage de données, la Commission européenne estimait la consommation énergétique des data centers de l’Union européenne à 77 TWh/an, ce qui représente déjà plus de 3 % de toute la consommation électrique de l’Union européenne. On estime qu’en moyenne, un seul data center consomme autant d’électricité qu’une ville de 30.000 habitants et, à ce rythme, d’ici 2030, ces centres de données pourraient encore tripler leur consommation électrique et doubler leurs émissions de CO2, qui dépasseraient alors 5 % des émissions mondiales. Pour mieux se rendre compte de l’impact de ce stockage de données, il faut rappeler que les data centers chinois, à eux seuls, ont rejeté, en 2018, 99 millions de tonnes de CO2, soit l’équivalent de 21 millions de voitures, ou encore le quart des émissions françaises annuelles de CO2.

Dans cette course technologique effrénée entre explosion de la production de données numériques et capacité de stockage, les scientifiques explorent de nombreuses voies de recherche pour trouver le nouveau « Graal », c’est-à-dire une nouvelle technologie qui permette à la fois de gagner d’un coup plusieurs ordres de grandeur dans le stockage numérique, tout en réduisant drastiquement sa consommation d’espace et d’énergie, et en restant compétitive, par rapport aux outils de stockage existants…

Précisons que les technologies « classiques » de stockage n’ont pas dit leur dernier mot et, qu’en 2017, l’entreprise japonaise Sony a annoncé qu’en partenariat avec IBM, elle a réussi à mettre au point une technologie de stockage sur bande magnétique qui permet d’atteindre des densités de stockage record, de l’ordre de 31 Go/cm², ce qui multiplie par vingt la capacité de stockage de données non compressées sur une seule cartouche, qui peut désormais atteindre les 330 To, soit 330 000 Go.

L’année dernière, l’Université d’Alberta a présenté une nouvelle technique de stockage de données qui repose sur la présence ou l’absence d’atomes individuels d’hydrogène. La densité de stockage résultant de cette technique serait d’environ 1,2 pétabit par pouce carré, soit une densité 1000 fois supérieure à celle des disques durs SSD actuels et 100 fois supérieure à celle des disques Blu-ray. Cette nouvelle technologie présente en outre l’avantage de pouvoir fonctionner à température ambiante et d’être capable de conserver les informations pendant plus de 500 ans. Elle pourrait, par exemple, permettre de stocker les 45 millions de chansons de la musicothèque iTunes sur la surface d’une pièce de monnaie. Mais, pour l’instant, l’écriture et la lecture des informations avec le procédé reste 10 000 fois trop lentes, par rapport aux performances des derniers SSD, et de nombreuses années de recherche seront nécessaires pour atteindre des temps d’accès et d’écriture aussi brefs que ceux des meilleurs disques magnétiques ou SSD actuels.

C’est dans ce contexte que la recherche s’est focalisée, depuis une dizaine d’années, sur l’ADN, comme possible outil de stockage massif et fiable de données. L’ADN, l’acide désoxyribonucléique, se trouve dans les cellules des êtres vivants. Il contient les informations génétiques. On estime qu’un seul gramme d’ADN peut stocker 200 millions de Go de données, ou encore 200 000 To, c’est-à-dire une quantité d’informations 10 000 supérieure à celle que l’on peut enregistrer sur les plus gros disques durs actuels. Autre avantage décisif, il faut 100 millions de fois moins d’énergie pour stocker la même quantité de données sur de l’ADN, par rapport à un disque dur. En théorie, on pourrait stocker sur seulement 5 grammes d’ADN toute la production annuelle mondiale d’informations de 2020, et tout le contenu du Web, depuis ses origines, dans un volume équivalent à une boîte à chaussures. Quant à la totalité des informations produites par l’humanité depuis l’invention de l’écriture, elle serait entreposable dans l’équivalent d’une grosse armoire…

En 2017, une équipe de l’Université de Columbia, à New York, est parvenue à stocker, puis à récupérer dans des brins d’ADN plusieurs types de données, celles d’un système d’exploitation d’ordinateur, d’un livre et du premier film historique réalisé en 1895 par les frères Lumière, “L’arrivée d’un train à La Ciotat”. La molécule d’ADN, dont la structure en double hélice a été, on le sait, découverte en 1953 par James Watson et Francis Crick, se compose de quatre principaux composants : l’adénine la cytosine, la guanine et la thymine, représentés par les lettres A, C, G et T. Pour stocker des données dans de l’ADN, on utilise, à la place des “1” et des “0”, les lettres A, C, G et T des composants de l’ADN. Par ce moyen, les quatre composants de l’ADN, A, C, G et T forment une séquence précise qui est identique à l’ordre des données du fichier numérique d’origine.

Mais, outre sa lenteur d’inscription et de lecture, le principal inconvénient du stockage ADN reste indéniablement son coût prohibitif. Selon l’Université de Columbia, l’inscription d’un Mo de données coûterait environ 2500 euros, et sa lecture 1500 euros, un coût qui reste évidemment incompatible avec une utilisation à l’échelle industrielle. Pour lever cet obstacle, les chercheurs du monde entier tentent de mettre au point des systèmes de « traduction » automatique des données numériques en données biochimiques.

Aux Etats-Unis, une équipe de chercheurs du Laboratoire national de Los Alamos travaille par exemple sur un logiciel de traduction, ADS Codex (Adaptive DNA Storage Codec), qui peut traduire des bits numériques en nucléotides et vice-versa. L’objectif final de ces recherches est de parvenir à écrire 1 To, et lire 10 To en 24 heures pour moins de 1 000 dollars. Pour parvenir à surmonter le défi que représente la correction d’erreurs de transcription, ces chercheurs ajoutent des informations supplémentaires, sous forme de codes de détection d’erreur, qui vont permettre de valider les données. Lorsque le logiciel convertit les données biologiques en bits numériques, il s’assure que les codes correspondent. Si ce n’est pas le cas, le programme va générer ou supprimer des nucléotides jusqu’à ce que la vérification soit pleinement conforme.

Il y a quelques semaines, la société Iridia, basée à Carlsbad, en Californie, et dirigée par Murali Prahalad, a dévoilé une solution innovante qui permettrait de réduire de 99 % les coûts de fonctionnement d’un datacenter qui stocke 1 exaoctet d’informations sur des SSD. Cette entreprise est en train de développer un système qui tienne sur une puce et qui puisse être intégré directement dans les équipements des datacenters, avec des temps d’accès et de lecture au moins aussi rapides que ceux des bandes magnétiques, ainsi qu’une consommation d’énergie 2 500 fois inférieure à celle des SSD. Iridia promet, grâce à sa solution technologique, une réduction de 99 % des coûts de fonctionnement d’un datacenter qui stocke 1 exaoctet d’informations sur des SSD (Vo ir Search Storage).

En outre, Iridia affirme que sa puce à ADN offrira, dans un premier temps, une densité de stockage quatre fois meilleure que celle des bandes et des disques durs magnétiques pour un prix moindre. Concrètement, Iridia a mis au point des cellules de mémoire à base de nanopores ainsi qu’un système capable d’y déplacer et d’y manipuler les données à volonté. Iridia précise que sa solution permet à la fois d’écrire des bits sur ce brin d’ADN et de les relire. Pour faire face à la demande en capacité massive de stockage, qui va continuer d’exploser, Iridia compte augmenter au fur et à mesure des générations la densité de cellules de nanomémoire par centimètre carré, ainsi que le nombre de bits par cellule de nanomémoire.

Une équipe de l’Université d’État de Caroline du Nord (NCSU) a, pour sa part, développé un nouvelle approche appelé Dynamic Operations and Reusable Information Storage, ou DORIS, qui ne repose pas sur la PCR (Polymerase Chain Reaction), ce qui lui a permis de surmonter les principaux obstacles à la mise en œuvre des technologies de stockage des données sur l’ADN. Avec les outils basés sur la PCR, l’information est encodée dans des brins d’ADN qui flottent dans une « soupe génétique ». Pour répertorier et nommer ces fichiers, on utilise des séquences de liaison qui sont attachées aux extrémités de ces brins et forment les noms de ces fichiers. Le problème est que, pour récupérer le bon fichier, et obtenir la bonne séquence de liaison, il faut, à chaque fois, chauffer puis refroidir cette soupe, de manière à séparer l’ADN en double brin. Cette technique finit donc par altérer, puis détruire les fichiers originaux.

Pour surmonter cet obstacle de taille, les chercheurs utilisent des séquences qui se lient à l’amorce et sont constituées d’une queue d’ADN d’un simple brin qui pend à l’extrémité. Cette astuce permet d’identifier et de récupérer des fichiers sans avoir besoin d’ouvrir les brins d’ADN codés. En outre, DORIS peut fonctionner à température ambiante, ce qui constitue un autre avantage majeur. Selon ces chercheurs, leur technique DORIS permet non seulement de lire à volonté un fichier en le préservant, mais autorise également une modification ou un verrouillage de ces fichiers pour certains utilisateurs.

En Suisse, des chercheurs de l’EPFL travaillent sur une technique utilisant  les nanopores – des trous de taille nanométrique – identiques à ceux que font les bactéries, qui savent très bien perforer d’autres cellules pour les détruire, en utilisant des protéines spécialisées appelées «toxines formant des pores», qui vont s’arrimer à la membrane de la cellule et y former un canal tubulaire. Ces chercheurs ont montré que les nanopores d’aérolysine peuvent servir à décoder les informations binaires. Ils ont réussi à modifier l’aérolysine pour détecter les molécules conçues précisément pour être lues par ce pore. Appelées «polymères numériques», ces molécules ont été développées dans le laboratoire de Jean-François Lutz à l’Institut Charles Sadron du CNRS à Strasbourg. Elles sont constituées d’un assemblage de nucléotides d’ADN et de monomères non biologiques conçus pour traverser les nanopores d’aérolysine et produire un signal électrique qui peut être lu comme un «bit».

Les chercheurs ont réussi à optimiser la vitesse des polymères traversant le nanopore, afin qu’il puisse émettre un signal spécifique et identifiable. « Mais, contrairement aux lectures de nanopores classiques, ce signal a permis une lecture numérique avec une résolution à un seul bit, sans restreindre la densité des informations, » souligne le Docteur Chan Cao, qui a dirigé ces recherches. Pour décoder les signaux de lecture, ces chercheurs ont eu recours au « deep learning », l’apprentissage profond ; ils ont ainsi pu décoder jusqu’à 4 bits d’informations des polymères. Ce procédé présenterait, selon ses concepteurs, deux avantages décisifs par rapport au stockage sur ADN : d’abord, il serait beaucoup moins cher pour le stockage de données ; ensuite, il serait facilement miniaturisable, et pourrait être facilement intégré dans des dispositifs de stockage de données portables.

De son côté, l’Europe a heureusement pris conscience de l’enjeu considérable que représente de l’ADN de synthèse pour stocker des données. Elle a lancé le projet “OligoArchive”, dont le but est de produire, d’ici trois ans, un premier prototype de disque de stockage sur ADN, qui soit à la fois économiquement viable et suffisamment rapide et fiable pour se substituer, dans un certain nombre d’applications, aux disques durs magnétiques ou SSD.

Que nous disent ces avancées et découvertes récentes ? Avant la fin de cette décennie, nous verrons arriver sur le marché les premiers systèmes de stockage massif de données sur ADN, ou sur support biochimique. Ce saut technologique extraordinaire fera d’une pierre trois coups, en permettant, à volume égal, de multiplier par au moins un million la quantité d’informations stockées, tout en réduisant drastiquement la consommation d’énergie et les émissions de CO2 liées à ce stockage numérique.

Mais pour bien mesurer l’extraordinaire puissance de cette rupture technique, il faut l’envisager en synergie avec la montée en puissance de l’Internet 3.0, caractérisé par le Web sémantique et l’intégration de tous les objets qui constituent notre réalité dans le Net, ainsi qu’avec l’arrivée probable, d’ici 2030, des premiers ordinateurs quantiques pleinement polyvalents (c’est-à-dire capables d’effectuer toutes sortes d’opérations et pas seulement des calculs spécialisés), dont la puissance de calcul va nous permettre de résoudre les problèmes d’une complexité insoluble pour l’instant.

On voit bien que la combinaison intelligente des machines quantiques, du stockage biologique de l’information et de l’Internet des objets va permettre l’émergence d’un monde virtuel complet, intégrant toutes les dimensions spatiales, temporelles et cognitives, et qui sera capable de s’auto-enrichir en permanence. Loin d’être une simple représentation du réel, ce monde virtuel autonome et vivant deviendra consubstantiel à notre réalité et à nos vies, au point qu’il deviendra tout simplement impossible pour nous de le distinguer du monde réel, puisqu’il en sera devenu une nouvelle dimension. C’est peu de dire que les conséquences économiques, politiques, sociales et culturelles de cette mutation de civilisation qui s’annonce seront immenses ; c’est pourquoi nous devons dès à présent nous préparer à ; l’avènement inéluctable de ce nouvel âge de l’espèce humaine, en réfléchissant ensemble au moyens et conditions qui permettront de conserver notre humanité dans ce nouveau monde et de lui donner une finalité collective qui ne se réduise pas au seul horizon technologique…

René TRÉGOUËT

Sénateur honoraire

Fondateur du Groupe de Prospective du Sénat

e-mail : tregouet@gmail.com