Au cœur de l'Internet Archive, la bibliothèque d’Alexandrie du XXIe siècle

En plein centre de San Francisco, à l’angle de Funston Avenue et de Clement Street, un bâtiment de 1850 m² abrite l’un des projets les plus pharaoniques de notre époque. Derrière ses murs, l’Internet Archive constitue, jour après jour, en conservant tout ce qu’Internet a permis de diffuser, la bibliothèque d’Alexandrie du XXIe siècle.

L'entrée du bâtiment qui héberge l'Internet Archive, à San Francisco. (photo Klervi Drouglazet/8e étage) — L’entrée du bâtiment qui héberge l’Internet Archive, à San Francisco. (photo Klervi Drouglazet/8e étage)

Une dizaine de marches surmontées de sept colonnes en pierres blanches. L’entrée de l’Internet Archive a des allures de Palais de Justice néoclassique. En poussant la porte en laiton verdi, pas de salle des Pas-Perdus, ni de magistrats en robes noires, mais une soixantaine de bibliothécaires, d’ingénieurs et de bénévoles en jeans baskets qui œuvrent pour « un accès universel à la connaissance ».

« La meilleure façon de préserver quelque chose est de le rendre accessible », aime rappeler Brewster Kahle, fondateur de l’Internet Archive en octobre 1996. L’organisme à but non lucratif a élu domicile dans cette ancienne Église de la Science chrétienne, voilà bientôt sept ans. « Avant 2009, notre siège était situé dans une ancienne base militaire du quartier de Presidio », retrace Mark Graham, adossé au comptoir de la réception. Depuis bientôt un an, c’est lui qui pilote la Wayback Machine, le service originel de l’Internet Archive qui aura vingt ans le 26 octobre prochain.

À droite du hall d’entrée, un petit escalier descend dans un open space où des tables de cantine viennent d’être installées au milieu des bureaux des employés. Chaque vendredi, l’Internet Archive offre la visite et le couvert à qui veut s’aventurer dans les couloirs du disque dur d’Internet. Mark Graham se sert une plâtrée de nouilles chinoises tout en vantant les mérites du projet qu’il pilote depuis bientôt un an : « Sur les 1,2 milliard de sites web à travers le monde, nous capturons 460 milliards de pages chaque semaine ».

LE 404 NOT FOUND N’EXISTE PAS

La machine à remonter le temps d’Internet collecte les pages web du monde entier pour qu’elles ne tombent pas aux oubliettes. Avec la Wayback Machine, le « 404 not found » n’existe pas, toutes les vieilles versions des sites peuvent, en un clic, remonter à la surface.

Le déjeuner est rythmé par un tour de table. Les visiteurs présents sont, pour la plupart, issus du monde de la tech. Lenny se lève et remercie, en s’esclaffant, « le dieu du web pour ce repas ». L’informaticien à la retraite n’est là que « par curiosité », pour voir « ce qu’il se trame ici ». Les employés, eux, font le point, une souris dans une main, la fourchette dans l’autre, sur leurs avancées de la semaine.

DES MILLIONS DE LIVRES DANS LES NUAGES

De retour dans le hall, Mark Graham s’installe face à un scanner très sophistiqué. La grosse machine photographie les livres, page après page. Depuis 2001, Internet Archive se livre à la numérisation d’ouvrages. Chaque jour, près d’un millier de livres sont envoyés dans le Cloud par les employés de trente centres répartis à travers le monde. Au total, huit millions de livres et de textes ont déjà été archivés. Ils sont ensuite stockés dans des entrepôts, dont trois millions d’entre eux à Richmond, une ville de l’autre côté de la baie de San Francisco.

Internet Archive — Mark Graham, devant son impressionnant scanner numérique. (photo Klervi Drouglazet/8e étage)

Les livres proviennent des grandes bibliothèques nationales ou de celles de particuliers qui font don de leurs rares collections. Plus de 500 000 personnes visitent ces archives au quotidien. Et près de 33 milliards de téléchargements de livres, de morceaux de musique, de jeux vidéo, d’émissions télé et de logiciels, ont été enregistrés jusqu’à présent.

UNE PLUIE DE COPYRIGHT

« Le but est que n’importe quel livre puisse être consulté par n’importe qui dans le monde grâce à Internet. Qu’un enfant pauvre du Kenya puisse avoir accès à la connaissance », poursuit le chef d’orchestre de la Wayback Machine. Petit bémol à cette arche de Noé pour fichiers numériques : le copyright, le droit moral qui protège un auteur et son œuvre.

« Face au copyright, on fait au cas par cas. Si un auteur demande que l’on retire son œuvre de nos archives, on le fait sans discuter », confie Mark Graham. Côté web, ce n’est pas la même rengaine : « On capture le plus de pages web possible, à l’exception des sites pornographiques. Si un webmaster ne veut pas que son site soit archivé, libre à lui de placer un ficher (NDLR, robot.txt) qui empêche nos robots d’y accéder ».

LA GREAT ROOM SURCHAUFFÉE

Tout en abordant le brûlant sujet du copyright, Mark Graham emprunte un grand escalier qui mène au cœur de l’Internet Archive. Dans un auditorium à l’odeur surchauffée, trône des colonnes de serveurs au ronronnement incessant. « Les lumières bleues clignotantes signifient qu’un internaute télécharge un document », explique Mark Graham. Les fenêtres de l’auditorium, baptisé la « Great Room », sont grandes ouvertes. « Nous n’avons pas d’air conditionné, on fait avec l’humeur de Mère Nature ». Au total, 24 pétaoctets de données – un pétaoctet représente treize années de film en haute définition – sont stockés dans ces serveurs.

Après les serveurs, Mark Graham s’avance vers de drôles de créatures : « Ce sont les gardiens de la Great Room ». Une centaine de poupées de cire, hautes comme deux tours d’ordinateur, sont disposées dans l’auditorium. Ce sont les portraits crachés des employés passés par les couloirs de l’Internet Archive. Il y en a même une pour Tim Berners-Lee, le papa du protocole du web, sans qui cette bibliothèque numérique n’aurait pas lieu d’être.

DU PACIFIQUE À LA MÉDITERRANÉE

En plus d’être bien gardés, tous ces fichiers numériques sont copiés sur les serveurs d’un site miroir situé sur les rives de la Méditerranée, à la Bibliotheca Alexandrina en Égypte, en lieu et place de la bibliothèque d’Alexandrie de l’Antiquité. Si le « Big One » venait à se produire, les données seraient saines et sauves.

« En novembre 2013, un incendie a ravagé une partie des locaux de San Francisco. Une trentaine de scanners ont été détruits, mais heureusement aucune donnée numérique n’a été perdue », signale Mark Graham. Il s’apprête à retourner au travail, animé par le devoir de mémoire 2.0, celui de préserver l’historique du web pour les générations futures.