Vous vous souvenez d’un article lu sur le web il y a quelques mois, vous aviez peut-être sauvegardé le lien dans vos bookmarks ou avez recherché dans les archives de vos mails et après avoir mis enfin la main dessus, c’est la déception: vous tombez sur une belle erreur 404, la page web demandée n’existe plus!
Internet, c’est magique. Il existe toujours un moyen d’avoir accès à ce savoir.
Savez-vous ce que signifie le mot « crawler » dans le langage web? Cela signifie programmer un robot -un script- qui va aller parcourir d’autres pages web. C’est la technique qu’utilise Google par exemple pour indexer toutes ces pages web: des robots parcourent le web et sautent de liens en liens pour découvrir de nouvelles pages internet -d’où l’importance des liens dans le référencement.
Le problème est que vous utilisez comme moi et 90% des français Google pour accéder à l’information. Google met à disposition les dernières pages crawlées des internautes dans son moteur de recherche. Rien ne l’empêcherait de mettre à disposition d’anciennes pages web.
Il existe un site internet qui sauvegarde des années des pages web.
Voici un site web à consulter pour récupérer les informations qui ont été un jour mises en ligne mais qui ne le sont plus: Archive.org
Profitez de ce service car vu la croissance du nombre de pages web qui suit une exponentielle, la fréquence d’archive de chaque site risque de diminuer à l’avenir à moins d’avoir toujours plus de serveurs à disposition pour stocker cette information toujours plus massive. Archive.org, c’est un peu le retour vers le futur du web.
Attention aux rédacteurs! Tout est archivé, vous serez prévenu!