Wayback Machine de l'Internet Archive
Définition : Internet Archive
Internet Archive (archive.org) a été créé en 1996 pour conserver des copies de pages et de médias présents sur le Web (images, vidéos...). Les copies sont mises à disposition du public 6 à 12 mois après leur capture. Internet Archive est un organisme à but non lucratif.
Méthode : Quelles pages web sont collectées ?
L'archivage n'est pas exhaustif, ce serait matériellement impossible.
Une partie de la collecte est automatisée via des crawlers, c'est-à-dire des programmes autonomes qui parcourent les pages web les plus populaires et naviguent de liens en liens.
Les humains peuvent également signaler manuellement des contenus à conserver.
Seules les pages publiques accessibles sans contrôle d'accès (login) peuvent être copiées.
Toutes les versions ne sont pas archivées (des intervalles de plusieurs jours ou semaines séparent deux copies).
Exemple :
735 billion web pages
41 million books and texts
14.7 million audio recordings (including 240,000 live concerts)
8.4 million videos (including 2.4 million Television News programs)
4.4 million images
890,000 software programs
archive.org/about (2023)
Complément :
En France, la BNF et l'Ina sont également en charge de l'archivage du Web français (au sens des contenus produits par les Français).
Software Heritage s'occupe d'archiver les logiciels (par exemple ceux présents sur les dépôts Git).
Définition : Wayback Machine
La Wayback Machine permet aux utilisateurs de consulter les contenus archivés par Internet Archive.
