20 ans d’archivage du Web

grande-experience-utilisateur-isometrique_23-2147546971

Les 22 et 23 novembre derniers, la BnF organisait deux journées professionnelles sur l’évolution de l’archivage du web et la reconnaissance du patrimoine numérique, revenant sur les 20 ans d’Internet Archive et les 10 ans du dépôt légal en France.

Un peu d’histoire…

En effet, c’est en 1996 que Brewster Kahle lance Internet Archive (fondation américaine qui a pour mission d’archiver le Web mondial), posant ainsi les bases mondiales de l’archivage du web. Les premiers sites enregistrés concernaient les élections présidentielles américaines. Certaines bibliothèques nationales le suivent assez vite (celles  de Suède et d’Australie notamment), et c’est assez logiquement que la France les rejoint en 1999. Il faudra néanmoins attendre le début des années 2000 pour le lancement de la première capture du domaine .fr, avant de faire une collecte ciblée sur les sites relatifs aux élections présidentielles et législatives françaises de 2002.

Puis, le 1er août 2006, la loi relative aux droits d’auteurs et aux droits voisins dans la société de l’information (loi DADVSI) vient compléter le champ d’action du dépôt légal existant, en y incluant désormais le Web. Deux organismes en ont la charge, la BnF et l’Ina. Il faut attendre 2011 pour que le décret d’application paraisse, mais pendant cette période les deux organismes ont déjà commencé les opérations, avec la définition des paramètres de collecte du domaine du web français.

Car en effet, l’archivage du Web bouscule les modes et règles de conservation et d’archivage utilisés jusque là, et fait se poser de nouvelles questions. Faut-il tout archiver ? A quelle fréquence ? Comment choisir ? Que faire des documents liés, des commentaires, etc. ?

Les missions…

Pour Laurence Engel, présidente de la BnF, l’objectif principal de l’archivage du Web est « la préservation de notre mémoire collective […] des sites institutionnels aux réseaux sociaux ». Pour ce faire, deux organismes se sont répartis le Web. L’Ina conserve les contenus qui relèvent de l’audiovisuel, la BnF « le reste » (les domaines .fr mais aussi .re ou les contenus produits par des français ou des auteurs domiciliés en France, dont les adresses sont en .com, .org, etc.)

L’archivage se fait en deux temps. Une fois par an, une collecte de masse d’environ 4,5 millions de sites est faite. Et de manière plus régulière, des collectes auprès de 20 000 sites sont organisées, parfois quotidiennement. Aussi, lorsque les évènements de l’actualité sont importants, une collecte accrue est organisée. Cet archivage n’est pas exhaustif, mais se veut représentatif. Il permet de sauvegarder un patrimoine numérique en perpétuel mouvement. Les chercheurs peuvent s’appuyer sur les données conservées pour étudier les phénomènes inhérents aux usages des TIC, mais aussi comparer les phénomènes qui se produisent en ligne et hors-ligne.

Que représente cet archivage aujourd’hui ?

Aujourd’hui, c’est un peu plus de 26 milliards de fichiers qui sont archivés à la BnF.  Chez Internet Archive, un peu plus de 460 milliards (Web, vidéos, sons, livres, logiciels…). Depuis 2001, Internet Archive donne accès à ses archives, via la Wayback Machine, outil qui permet de naviguer à travers toutes ces données.  En France par contre, seuls les chercheurs accrédités peuvent consulter les données archivées au sein des 14 bibliothèques françaises y donnant l’accès. En effet, comme pour le livre, le Web est encadré par le code du patrimoine et le droit d’auteur. On ne peut donc pas donner accès librement à toutes les informations.

Et la suite ?

Le consortium IIPC (International Internet Preservation Consortium) a été créé avec une cinquantaine de membres. L’objectif est d’améliorer les outils, standards et normes pour stocker les archives de la même façon, afin de préparer une éventuelle interopérabilité des données mais aussi améliorer les recherches dans ces mêmes données. Par ailleurs, de nouvelles problématiques se posent, l’évolution rapide du Web compliquant davantage l’archivage, à l’image de l’arrivée des réseaux sociaux. Depuis l’année dernière, l’Ina se concentre sur l’archivage des tweets, pour lesquels une interface spécifique a été créée. La BnF capte quant à elle des comptes Facebook et Twitter. Autre enjeu également, convaincre les pays qui ne le font pas encore d’archiver le Web et d’assurer la pérennité de cet archivage.

 

Pour en savoir plus :

Sur Twitter : #20ansDLWeb

Historique de l’archivage du web à la BnF http://www.bnf.fr/fr/professionnels/archivage_web_bnf/a.depot_legal_internet_histoire.html

Dossier Enssib, l’archivage du web http://www.enssib.fr/bibliotheque-numerique/documents/1730-l-archivage-du-web.pdf

20 ans d’archives de l’internet français, il était une fois dans le web http://www.lavienumerique.com/articles/165679/20-ans-archives-internet-francais-etait-fois-web.html

L’archivage du web : un outil pour comprendre internet http://www.inaglobal.fr/numerique/article/l-archivage-du-web-un-outil-pour-comprendre-internet-9386

Archivage du web : 510 milliards de pages sur Internet Archive ! http://www.archimag.com/archives-patrimoine/2016/11/22/archivage-web-510-milliards-pages-internet-archive

Julie Gakyère

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s