Politik

Webseiten-Archivierung: Erfolgreiches Projekt des Universitätsarchivs

Sie ist das Medium, mit dem sich die TU Ilmenau der weltweiten Öffentlichkeit präsentiert: ihre Webseite. Soeben wurde der Internetauftritt der Universität einem umfassenden Relaunch unterzogen und nachdem die neue Uniwebseite nun ein halbes Jahr online ist, wird die alte am 1. November abgeschaltet. Ab diesem Zeitpunkt ist der Zugriff auf Daten der Vorgängerwebseite nicht mehr möglich – es sei denn, sie wäre nach allen Regeln der Kunst archiviert.

peach/fotolia/stock.adobe.com

Seit zwei Jahren widmet sich ein kleines Team, bestehend aus Dr. Anja Kürbis, der Leiterin des Universitätsarchivs, und Maximilian Gagewi, EDV-Mitarbeiter der Universitätsbibliothek, dieser Aufgabe – ohne zusätzliche Mittel und zusätzlich zum bestehenden umfangreichen Tätigkeitsspektrum.  Im folgenden Beitrag stellen Dr. Anja Kürbis und Maximilian Gagewi den Hintergrund, Werdegang und Herausforderungen des Projekts „Webarchivierung“ an der TU Ilmenau vor. 

Webseiten besitzen hohen Quellenwert

Die Website der Universität ist ein zentraler Baustein der Onlinekommunikation. Präsentiert sie doch die Einrichtung so, wie sie gesehen werden möchte. Sie vermittelt den intendierten Öffentlichkeiten das Selbstverständnis der Universität und bietet Informationen und Dienstleistungen zum Zwecke der Transparenz und Werbung. Damit besitzt die Website einen nicht zu unterschätzenden Quellenwert, etwa um Selbst- und Fremdbilder der Einrichtung zu erforschen, Informationen über Strukturen oder Personen zu recherchieren oder Ereignisse aus Lehre und Forschung nachzuvollziehen.

Was aber passiert mit einer vom Netz genommenen Website? Mit den Informationen über das universitäre Leben, Lehre, Forschung und Wissenschaft? Gehen deren Inhalte verloren, wenn sie nicht archiviert wurden? Beim vorherigen Relaunch der Webseite der TU Ilmenau im Jahr 2010 existierte noch kein Webarchivierungsverfahren an der Universität, allerdings fertigte das amerikanische non-profit-Unternehmen „Internet Archive“ seit 1998 in unregelmäßigen Abständen Shapshots, also Kopien, der Uniwebsite an. Bei genauer Betrachtung zeigen sich jedoch erhebliche Mängel dieser Snapshots: Sei es, dass sie gar nicht aufgerufen werden können, dass Inhalte fehlen bzw. nicht adäquat wiedergegeben werden oder Zeitschnitte miteinander vermengt werden. Verlässliche Informationen sind diesem Webangebot nicht zu entnehmen, eine wissenschaftliche Recherche gar nicht möglich. Einen Informationsverlust, wie er mit dem Web Relaunch vor 10 Jahre einherging, konnte beim aktuellen Relaunch nicht noch einmal hingenommen werden.

Herausforderung Webarchivierung

Die Herausforderung, derartige Inhalte zu erhalten, besteht in der Flüchtigkeit des digitalen Mediums. Abgesehen von dem großen Bruch eines Web Relaunches besteht der besondere Reiz einer Webseite ja gerade darin, wann immer es erforderlich ist, Inhalte zu ändern, zu löschen und hinzuzufügen. Aber selbst dieser Aspekt ist derzeit im Wandel begriffen. So wird der universitäre Webauftritt zunehmend für statische Informationen mit längerer Gültigkeit genutzt, während aktuelle Informationen in die Social-Media-Kanäle der Hochschule verlagert werden. Mit dem Wandel des Kommunikationsverhaltens ändert sich eben auch das Medium.

Für Archive und Bibliotheken, die sich um den Erhalt der Netzressourcen bemühen, ist dies eine Binsenweisheit und Herausforderung zugleich. Und noch eine zweite, nicht weniger unerhebliche Herausforderung ist mit der Webarchivierung verbunden: der Aufwand an Ressourcen. Aus diesem Grunde nehmen sich nur wenige und vor allem große Bibliotheken, wie die Deutsche Nationalbibliothek, und Archive dieser Aufgabe an. Thüringenweit sind Aktivitäten der Webarchivierung bis auf eine Absichtserklärung der Thüringischen Landesbibliothek Jena derzeit nicht wahrnehmbar.

Projekt Webseitenarchivierung

Im Rahmen des Projekts Webarchivierung wurden rund 150 universitätsnahe Webpräsenzen in einem aufwendigen Autopsieverfahren auf Wert und Qualität der Informationen einerseits und den verbundenen Urheberrechten andererseits hin geprüft. 30 Webpräsenzen wurden als archivwürdig eingestuft und eine entsprechende Archivierung vorbereitet. Parallel dazu erfolgte eine ausgiebige Evaluation der kostenpflichtigen und Open Source Tools, mit denen die Websites gecrawlt und im Anschluss betrachtet werden können. Mit Heritrix und Pywb wurden zwei Open Source Tools ausgewählt, die ständig weiterentwickelt werden und für unsere Belange angepasst werden mussten. Es wurden Taktung und Ausmaß des Crawlvorgangs festgelegt und damit begonnen, erste Rechte für die Archivierung bei den jeweiligen Websiteinhabern einzuholen und zusätzlichen Speicherplatz beim Rechenzentrum zu beantragen. Ein erster Testcrawl der Domain www.tu-ilmenau.de konnte bereits im Dezember 2019 durchgeführt werden. Es folgten weitere 2020 und 2021. Das Intranet hingegen, welches hinter dem Mitarbeiterlogin verborgen ist, konnte nur manuell Seite für Seite gesichert werden. Die Archivierung der Website nebst Metadaten erfolgt im für die Webarchivierung nach derzeitigem Stand aussichtsreichsten und ISO spezifizierten Format WARC. Derzeit belegen diese Dateien ca. 180 GB.

Die ersten Ergebnisse sind seit kurzem vorab für alle Angehörigen der TU Ilmenau über die SharePoint Präsenz des Archivs zugänglich. Für die Website und das Mitarbeiterintranet werden für die Zeiträume 2019/2020 und 2021 jeweils ein Zeitschnitt der Website und des Mitarbeiterintranets angeboten. So haben sie die Möglichkeit zu prüfen, welche Inhalte gesichert sind und so nicht mehr zwingend auf die neue Website übertragen werden müssen. Schließlich galt die Verschlankung der Website als ein wichtiges Ziel des Web Relaunches.

Allen zugängliches Webarchivportal

Im Rahmen der weiteren Arbeiten soll ein Webarchivportal für die TU Ilmenau erstellt werden, das allen zugänglich ist. Perspektivisch soll die universitäre Webpräsenz zweimal jährlich gecrawlt werden. Außergewöhnliche Ereignisse, wie zum Beispiel die Corona Pandemie, wurden und werden weiterhin zusätzlich und engmaschig gesichert. Ebenso werden die Social Media Kanäle der Universität, Twitter und Facebook, archiviert. Auch die anderen, ebenfalls als archivwürdig befundenen, Websites, zum Beispiel der studentischen Vereine werden, so dem Archiv die Rechte hierzu vorliegen, künftig archiviert und entweder in den Räumen des Archivs oder online allen zugänglich gemacht werden.

Kernaufgabe des Archivs

Es gehört zu den grundsätzlichen Funktionen eines Universitätsarchivs, den aktiven Datenbestand der Hochschule durch die Archivierung zu entlasten und die alten, aber dennoch historisch, kulturell und rechtlich wertvollen Daten in einem rechtlich gesonderten Raum zugänglich zu machen. Dies trifft auf die analogen Akten ebenso zu wie auf die Webseiten, die letztlich nichts Anderes als dienstliche Unterlagen sind. Insofern ist die Webarchivierung letztlich kein Projekt, sondern eine Kernaufgabe des Archivs. Und doch: Ein letzter Schritt fehlt noch: Die eigentliche Langzeitarchivierung. Dafür die entsprechenden Strukturen zu schaffen, ist die Aufgabe der Universität in den kommenden Jahren. 

Kontakt

Dr. Anja Kürbis

Leiterin des Universitätsarchivs