Ordnung in unstrukturierte Daten zu bringen ist eine Herausforderung, garantiert jedoch prüfbare und sichere Archive. Mit intelligenten Suchfunktionen, sinnvollen Metadaten und regelbasierten Prozessen können IT-Manager in digitalen Archiven aufräumen.
von Ulrike Rieß
Die Herausforderung des Indizierens und Archivierens unstrukturierter Daten wird oft unterschätzt. Typischerweise lösten IT-Abteilungen das Problem mit mehr Hardware, jedoch stellt dies keine zeitgemäße Lösung dar. Elektronische Nachrichten und Dateiablagen werden immer häufiger behördlichen Kontrollen unterzogen oder müssen gerichtsverwertbar sein, also müssen sich Unternehmen um die Vereinfachung dieser Prozesse kümmern. Zusätze für ECM-Software und spezielle E-Mail- und Dateiarchive arbeiten mit großen Mengen unstrukturierter Daten, aber unterscheiden sich in der Art der Verarbeitung, des Auffindens, der Indizierung und des Archivierens. Es gibt keine allumfassende Lösung, also muss der Anwender Kompromisse eingehen.
Als Minimum müssen diese Produkte mit großen Mengen unstrukturierter Daten umgehen und gesetzliche Richtlinien auf kostengünstige Weise erfüllen. Produkte von CommVault und Zantaz zum Beispiel verringern die Zeit, bestimmte E-Mails im Archiv aufzufinden. Aber Pakete können generell keine sinnvollen Beziehungen zwischen Dateiinhalten herstellen, tiefere Inhaltsanalysen durchführen oder Workflow-Prozesse erstellen. All diese Eigenschaften bieten ECM-Anwendungen beispielsweise von EMC, Hummingbird und Open Text.
Archiv-Software ist grundsätzlich einfacher zu installieren und besser auf hochvolumige Umgebungen zugeschnitten, in denen der Preis eine größere Rolle spielt. Demgegenüber bieten ECM-Anwendungen mehr Optionen zur Verwaltung und Klassifizierung von Inhalten sowie zum Aufbau von Beziehungen zwischen Datenkomponenten. Um sich sinnvoll für einen dieser beiden Ansätze entscheiden zu können, müssen IT-Verantwortliche verstehen, wie diese Programme mit unstrukturierten Daten umgehen. Dazu gehören folgende Fragen:
 | Wie wird mit der Suche, dem Indizieren und Archivieren umgegangen? |
 | Welche Art von Metadaten erzeugt das Produkt? |
 | Welche Art von inhaltlicher Analyse führt das Produkt durch? |
 | Welche Regeln oder Kategorien sind serienmäßig enthalten? |
 | Werden E-Mails und Metadaten von Dateien in derselben Datenbank indiziert? |
 | Wie schwer ist die Anwendung zu installieren und zu nutzen? |
 | Werden zusätzliche Produkte oder Module benötigt, um die gewünschten Funktionalitäten zu erreichen? |
Suche und Index
ZipLips »Unified Email Archival Suite«, ein E-Mail- und Dateiarchivprodukt, nutzt für die Suche in E-Mails das »Anzapfen« der nativen Journale von Microsoft »Exchange« oder »Lotus Notes«. Dadurch kann Ziplip auf einen Agenten verzichten und muss sich auch nicht ohne Wissen des Nutzers in einkommenden oder ausgehenden E-Mail-Verkehr einklinken. Zur Beschleunigung des Suchprozesses platziert die Suite den Index auf einen separaten Server und führt Abfragen auf diesem Server und nicht in der eigentlichen Datenbank durch.
Umgekehrt sind ECM-Anwendungen weniger sinnvoll, um große Mengen unstrukturierter Daten schnell zu verarbeiten, als diese tief zu analysieren und Metadaten zu erzeugen und zu speichern. Die meisten ECM-Produkte nutzen nicht die Journaleigenschaften der E-Mail-Server oder integrieren sich nicht mit Exchange oder »Domino«. Archiv- oder Abfrageaufgaben werden vielmehr über die APIs von Exchange, Notes oder das Domino NRPC-Protokoll abgewickelt. Der Nachteil dieses Ansatzes ist, dass sich solche Aufgaben nur zu bestimmten Zeiten durchführen lassen. Weil die Nutzung des APIs durch die ECM-Software wie ein »normaler« Client für den Server aussieht, muss dieser für jede Aufgabe Prozessorzeit reservieren. Fragt die Software nach nur 1.000 Nachrichten, ist das wahrscheinlich kein Problem. Fragt sie nach allen Nachrichten seit der letzten Abfrage, hat das höchstwahrscheinlich Einfluss auf die Gesamtleistung des Systems.
Im Gegensatz zu seinen Mitbewerbern bietet Commvaults »QiNetix« Module zur Integration in Anwendungen oder zum Absetzen von API-Calls. Der »DataArchiver« für Exchange beispielsweise verhält sich in der engen Integration mit Exchange wie eine Archiv-Software, indem er die Nachrichten des Servers über einen Agenten kopiert. Demgegenüber setzen andere Module wie der »DataMigrator« für Exchange und für Centera API-Calls ein. Commvault speichert die Daten aus all diesen Quellen in einer zentralen Datenbank, die »Common Technology Engine« (CTE). Diese fungiert als ein globaler Katalog und indiziert über die gesamte Bandbreite der Qinetix-Produkte.
Die Metadatenbank
Der Inhalt, mit dem zum Beispiel Commvault seine Datenbank CTE füllt, sind Metadaten – die Beschreibungen der unstrukturierten Daten –, die während der Analyse von E-Mails und Dateien generiert werden. Die Art der Metadaten hängt vom jeweiligen Inhaltsanalysewerkzeug ab, welches das Produkt und dessen Regeln verwendet.
Metadaten enthalten allgemeine Eigenschaften wie den Besitzer der Datei, das Erzeugungsdatum, das Datum der letzten Änderung. Bei E-Mails sind dies der Sender, der Empfänger und die Inhaltszeile. Die Inhaltsanalyse findet ebenfalls zu dieser Zeit statt, indem ein »Text-Mining«-Werkzeug den Text und Zusammenhang des Dokuments durchleuchtet. Mögen Indizes und Archive aller unstrukturierten Daten Behörden und Auditoren für heute genügen, ist dies doch eine kurzfristige Lösung. Die Ansprüche dieser Gruppen werden immer spezieller. Hier müssen IT-Manager die folgenden drei Punkte berücksichtigen.
Zusammenhänge zwischen Dokumenten
Benutzer könnten gebeten werden, alle Dokumente zu einem bestimmten Thema zusammenzusuchen, zusätzlich aber auch solche, in denen bestimmte Themen, Namen oder Zahlen nicht erwähnt, aber impliziert worden sind. Hierfür benötigt der Anwender eine Software, die neben reinen Indizes auch neuronal basierte Nachforschungen betreiben kann.
Regelsetzung
Die Suche in und Verwaltung von Datenarchiven setzt die Möglichkeit der Regelsetzung voraus. Hiermit können Dateien oder Dokumente verschlüsselt, geblockt oder verfolgt werden. Des Weiteren ermöglichen solche Regeln den Aufbau eines Information-Lifecycle-Managements (ILM) über mehrere Speichersysteme und Datenbanken sowie längere Zeiträume hinweg.
Erzeugen von Regeln für Indizes
Das Anlegen von Regeln zur Suche in unstrukturierten Daten kann nicht länger als lästige Pflicht angesehen werden. Viele Firmen bilden eigene Abteilungen, die sich nur mit diesen Archiven beschäftigen. Um diesen Mitarbeitern zu helfen, kommen alle gängigen Werkzeuge heute mit einem Satz vorgefertigter Regeln und Kategorien. Hiermit empfiehlt es sich, nurmehr einen Teil der tatsächlich vorhandenen unstrukturierten Daten zu durchsuchen. Währenddessen lassen sich die Standardregeln und Kategorien auf die tatsächlichen eigenen Bedürfnisse anpassen.
Beide – Regeln und Kategorien – sollten jedoch zusammen Anwendung finden. So kann eine Regel alle Einträge eines bestimmten Wortes finden und diese in die Metadatenbank eintragen. Hiermit sind jedoch nicht die Bedeutungen und damit die Zusammenhänge dieses Wortes abgedeckt. So kann der Begriff »football« für einen Amerikaner etwas anderes bedeuten als für einen Europäer, der im Gegenzug nämlich »soccer« meint. Hier hilft eine neuronale Verknüpfung der Begriffe, alle Worte auch in den richtigen Zusammenhang zu stellen.
Die Fähigkeit, nach einem Wort oder einem Begriff in der gesamten gespeicherten Datenmasse zu suchen, unterscheidet ECM-Produkte von Archiven. Diese führen keine API-Calls in ihrem Datenspeicher durch, im Gegensatz zu den ECM-Anwendungen.
Archiv-Software ist darauf angewiesen, zunächst Objekte aus den unstrukturierten Daten zu extrahieren, zusammenzufassen und mit bestimmten Eigenschaften zu versehen. Diese Eigenschaften werden dann in einer Metadatenbank abgelegt, in der später nach bestimmten Begriffen gesucht werden kann. Der Nachteil des ECM-Ansatzes ist jedoch, dass das Erzeugen und Indizieren der Metadaten sehr viel Zeit in Anspruch nimmt und bestimmte Geschäftsprozesse hierfür möglicherweise einer Änderung bedürfen. In manchen Fällen kostet das Anlegen und Pflegen von ECM-Umgebungen mehr, als diese im Ende einbringen.
Überlegungen zur Installation
Die Art der Lizenzierung unterscheidet sich bei einzelnen Archiv-Produkten sehr. Ein Hersteller lässt sich für jeden einzelnen E-Mail-Benutzer eine Lizenzgebühr bezahlen, während ein anderer einen gesamten Server mit beispielsweise 250 Nutzern lizenziert. Bei Open Text beispielsweise kann der IT-Verantwortliche einzelne Module zum Öffnen, Archivieren und Indizieren von Nachrichten einzeln erwerben wie »Livelink for E-Mail-Monitoring«, während ein anderes Paket des gleichen Herstellers all dies bereits mitbringt, das E-Mail-Management-Modul.
Für die Installation im Netzwerk sollten nach Möglichkeit eigene Schnittstellen zu separaten Netzwerken zur Verfügung stehen, da vor allem der initiale Aufbau der Metadatenbank über Standardprotokolle wie TCP/IP oder http eine hohe Netzlast mit sich bringt. Natürlich darf der IT-Verantwortliche auch die Konfiguration für das Zusammenspiel mit Routing-Tabellen und Firewalls nicht vergessen.
Heutige Datenverwaltungswerkzeuge bieten Wege zum Umgang mit E-Mails und Dateiarchiven. Jedoch gibt es bis jetzt kein solches Werkzeug, das eine einfache, konkurrenzfähige Lösung für Unternehmensarchive bietet. Somit müssen sich mittlere und große Unternehmen für Punktprodukte entscheiden. Firmen, die Lösungen für Compliance und zusätzlich einige Data-Mining-Funktionen suchen, sollten sich nach einem ECM-Werkzeug mit Inhaltssuche und -analyse umschauen, das über vorgefertigte Regeln und Kategorien verfügt. ECM ist allerdings weder einfach einzuführen noch zu verwalten, darüber hinaus benötigt das Unternehmen immer noch Archivsoftware für E-Mails und Dateien. Für Daten von unbestimmtem Wert ist es eventuell besser, momentan eine Archivlösung zu implementieren und sich später mit dem ECM-Aspekt zu beschäftigen.