Wayback Machine

Das digitale Archiv Wayback Machine soll das Internet so abbilden, wie es einmal war. Allerdings steht das Portal genau deswegen in der Kritik: Je nach Land und geltendem Gesetz verstößt der Betreiber, eine US-amerikanische Non-Profit-Organisation mit Sitz in San Francisco, durch die umfassende Abspeicherung gegen das Urheberrecht.

Definition

Eine sogenannte Wayback Machine ist ein Internetportal, über das Nutzer auf ältere Versionen von Webseiten zugreifen können. Das Portal gehört der US-amerikanischen Non-Profit-Organisation Internet Archive. Die Wayback Machine speichert in regelmäßigen Abständen den Inhalt verschiedener Internetseiten und generiert so eine Historie mit diversen Versionen und Zuständen. Auf diese Weise sammelt das Portal auch Unmengen an Daten. Die Wayback Machine steht unter anderem wegen diverser Verstöße gegen geltendes Urheberrecht in der Kritik.

Anwendungsgebiet und Hintergrund

Mithilfe des Portals Wayback Machine soll vor allem Forschern, Wissenschaftlern und Historikern der Zugang zu einem digitalen Archiv ermöglicht werden. Internet Archive sammelt dafür nicht nur Daten über archivierte Webseiten, sondern auch Texte, Audio, bewegte Bilder und Software. So werden Webseiten mitsamt ihrer vollständigen Inhalte gespeichert. Die Daten werden dabei mithilfe eines Crawlers gesammelt.

Die Organisation Internet Archive verwendet die Datenbank des Internet-Unternehmens Alexa. Alexa ist ein Tochterunternehmen von Amazon, welches weltweit Zugriffsdaten über Webseiten sammelt.

Kritik an der Wayback Machine

Die umfassende Speicherung von Webseiten und ihrem Content ist umstritten. Bei der Abspeicherung kann es je nach geltendem Gesetz zu Verstößen gegen das Urheberrecht kommen, denn der eingesetzte Crawler indexiert und erfasst zunächst alle Webseiten und Inhalte. Besonders in Hinblick auf die deutsche Rechtslage stellt die Archivierung eine Vervielfältigung urheberrechtlich geschützter Werke dar und verstößt somit durch das Urheberrecht.

Um eine Löschung der gespeicherten Daten zu erwirken, müssen Webseitenbetreiber eine Anfrage an die Betreiber stellen. Doch auch wenn der Löschung der Webseite stattgegeben wird, bleibt der entsprechende Content in der Datenbank gespeichert. Das stellt vor allem Foren und soziale Netzwerke vor eine Herausforderungen, da Nutzer ihre Beiträge nicht mehr entfernen lassen können, auch wenn sie ihrer aktuellen Position nicht mehr entsprechen.

Viele Webseitenbetreiber versuchen sich über eine entsprechende Konfiguration der robots.txt-Datei zu schützen. Diese Datei legt fest, welche Bereiche einer Domain indexiert werden sollen und welche nicht, um so die Arbeit der Suchmaschinen zu erleichtern. Jedoch verkündete der Betreiber der Wayback Machine im April 2017, dass der Crawler zukünftig immer weniger Rücksicht auf die Konfigurationen für die Suchmaschinen in der robots.txt-Datei nehmen wird, um der Unternehmensvision einer wirklichkeitsgetreuen Abbildung des Internet zu entsprechen. So werden beispielsweise auch US-amerikanische Regierungsseiten indexiert und gespeichert, obwohl dies in der robots.txt-Datei untersagt wird.

Bedeutung für SEO

Im Rahmen der Suchmaschinenoptimierung (SEO) hingegen könnte die Wayback Machine einen Vorteil darstellen: Im Falle einer Penalty aufgrund unlauterer Methoden zu Verbesserung des PageRanks auf der Search Engine Result Page (SERP) können Webseitenbetreiber die Ursache für die Abstrafung durch das Vergleicher des Quellcodes mit der älteren Version einer Seite leichter nachvollziehen. So lassen sich auch andere Fehlerquellen leichter identifizieren und optimieren.

Auch in Hinblick auf das Linkmanagement kann der Zugriff auf ältere Versionen und Zustände einer Webseite hilfreich sein, denn Webseitenbetreiber können fehlerhafte oder tote Links leichter identifizieren. Auch im Falle von Dublicate Content hat der Inhaber einer Webseite die Möglichkeit, die in der Wayback Machine gespeicherte Version der Webseite als Beweis für die Herkunft des Contents anzuführen.

Auch interessant: