On pourrait croire que lorsqu'un webmaster
modifie ses pages et supprime certaines informations, voire même un
site entier, tout disparaît de la mémoire du réseau. Tout faux.
Ceci grâce à Brewster Kahle, un entrepreneur américain qui a
lancé il y a six ans un projet complètement fou, la "Wayback
Machine" (la "machine à remonter le temps").
Son site, www.archive.org, est
resté plusieurs années accessible uniquement aux seuls chercheurs et
journalistes. Gros émoi lorsque le 24 octobre de l'année passée, le
site s'ouvre à tout public et sur une base totalement gratuite.
L'archivage du Net semble tâche impossible, car il s'agit de capturer
les milliards de pages éphémères du web, et pourtant elle est une
réalité à laquelle vous pourrez tous vous confronter. Actuellement,
les archives représentent plus de 100 teraoctets, ce qui représente
en gros cent millions de livres dans un bibliothèque (une telle
bibliothèque n'existe évidemment pas !). Il s'agit en fait de la
plus grande base de données mondiale réunie autour de 400 machines
travaillant en parallèle, un énorme espace disque, gérée par son
propre système d'exploitation, le P2. Elle réunit pour l'instant
plus de 12 milliards de pages web récoltées en 6 ans. Du point de
vue technique, le plus amusant est que l'équipe de "Wayback
Machine" n'utilise pas de superordinateurs à plusieurs millions
de dollars la pièce, mais de simples PC à quelques centaines de
dollars l'unité. En fait, le matériel complet et son système de
sauvegarde n'a pas coûté plus de 400 000 dollars, alors que la
Bibliothèque du Congrès américain, qui contient cinq fois moins de
documents, coûte 450 millions de dollars par an. Renversant, non?
Fondamentalement, cet exemple de rationalisation dans le domaine de la
gestion de données devrait faire réfléchir bien des entreprises qui
gaspillent des millions de francs pour gérer des bases de données
ridiculement petites, comme par exemple celles de nos assurances. La
réflexion peut aller plus loin. Lorsqu'on peut récolter et archiver
plus de 10 terabites par mois avec 400 misérables PC de
"monsieur tout le monde", il devient ridiculement aisé
d'archiver l'ensemble des œuvres musicales enregistrées dans le
monde en un siècle (cela représente un million d'enregistrements
seulement), ou l'ensemble des films produits depuis les frères
Lumière (quelques centaines de milliers seulement, productions
indiennes y compris). Pour en savoir plus sur tous les aspects
techniques, stratégiques et quasiment philosophiques de archive.org,
je vous conseille de lire cet
l'interview de Kahle (malheureusement qu'en anglais).
Il ne faut pas le cacher, le procédé intéresse la justice et les
défenseurs des droits d'auteurs. Le combat juridique ne fait que
commencer. Actuellement, le propriétaire d'un site ne désirant pas
"entrer dans l'histoire" ajoute simplement une commande META
"robot exclusion" dans le code de sa page.
Je vous convie à visiter ce site, vous ne le regretterez pas. Tout
d'abord, vous irez vous recueillir sur les sites des pionniers de
l'internet (the Well, Feed, la Nasa, la Maison Blanche, et bien
évidemment la première mouture de Yahoo). Ensuite, vous vous
amuserez à saisir tout simplement l'adresse URL de vos sites favoris.
Apparaît alors un tableau vous indiquant le nombre de versions
anciennes existant pour le site en question (par exemple pour 30
versions depuis le 11 novembre 1998 pour www.lagruyere.ch
; pour www.lyoba.ch, 72 versions
depuis le 21 décembre 1996). Au delà d'une émotion certaine, la
redécouverte de sites anciens est très troublante. Elle est aussi
révélatrice de nos erreurs de jugement avant les grands
événements. A ce sujet, allez voir l'orgueilleux site de Swissair (www.swissair.ch)
avant l'annonce de sa déconfiture, ou l'aveuglement des grandes
banques et instituts de placement quelques jours avant le crack
boursier de 1998. Autre moment historique à ne pas manquer : le site
de CNN (www.cnn.com) et les autres
sites de la presse mondiale du 11 septembre 2001.
Montez dans la machine à remonter le temps et
attachez vos ceintures.
Bon voyage. Emotions garanties!
|