IT-Dienstleister Prego erlaubt Dokumentenanalyse »as a Service«
»Heimdall« nennt sich ein neues System des Saarbrückener IT-Dienstleisters prego services für die kontextsensitive Analyse unstrukturierter Texte. Heimdall kann Texte aus unterschiedlichsten Dateitypen wie .doc, .pdf, .txt oder .csv durchsuchen und analysieren. Im Gegensatz zur herkömmlichen Volltextsuche ist das neue System laut Prego in der Lage, ähnliche Inhalte, die mit anderen Begriffen formuliert sind, zu identifizieren, und auch Kollokationen aufzeigen. (Das Phänomen der Kollokation ist laut Wikipedia in der Linguistik auch unter Begriffen wie »wesenhafte Bedeutungsbeziehung«, »syntaktisches Bedeutungsfeld« und »lexikalische Solidaritäten« bekannt.)
Die neue Lösung Heimdall geht so vor: Zunächst entfernt das System alle für die Indexierung irrelevanten Stoppwörter wie Artikel, Konjunktionen und Präpositionen, korrigiert Rechtschreibfehler und reduziert die verbleibenden Wörter auf ihre Stammform. Danach verschlagwortet es die Dokumente, und ordnet ähnliche Wörter, etwa »Haus« und »Gebäude«, entsprechenden Äquivalenzklassen zu. Anschließend werden sie in eine In-Memory-Datenbank geschrieben, die es erlaubt, die Texte sehr schnell zu durchsuchen und in Echtzeit statistisch auszuwerten.
»Heimdall« kann so genannte Kollokationen darstellen
Durch dieses Verfahren ist sich Prego sicher, dass sich Heimdall deutlich von herkömmlichen Volltextsuchen absetzt. Im Gegensatz zu ihnen soll Heimdall in Dokumenten auch Inhalte finden, die der Suchanfrage ähnlich sind, aber andere Begriffe und Formulierungen aufweisen. Außerdem könne die Software so genannte Kollokationen darstellen – also aufzeigen, mit welchen anderen Begriffen ein gesuchtes Wort besonders häufig gemeinsam auftritt.
Die Lösung soll sich dabei in den unterschiedlichsten Themenbereichen einsetzen lassen. Um auch von fachspezifischen Begriffen die Stammformen zu produzieren, können Wortbibliotheken aus allen erdenklichen Gebieten in das System geladen werden – seien es Rechtswissenschaften, Medizin, Ingenieurwesen oder IT.
Prego kann mit Heimdall umfassende Auswertungs-Services anbieten
Mit seiner neuen Lösung kann Prego als IT-Dienstleister selbst umfassende Auswertungs-Services anbieten. Möchte ein Unternehmen beispielsweise seine Wissensdatenbank optimieren, findet der IT-Dienstleister mit Heimdall Dokumente, die ähnliche Informationen enthalten und deshalb konsolidiert und zusammengefasst werden können. Das Aufzeigen der Kollokationen ermöglicht es dem Auftraggeber außerdem nachzuvollziehen, welche Themenschwerpunkte in der Wissensdatenbank bereits ausreichend abgedeckt sind und wo es eventuell noch Lücken gibt.
Zu den zahlreichen weiteren Anwendungsmöglichkeiten zählen nach Angaben von Prego das Aufspüren von Musterverträgen, die von Gesetzesänderungen betroffen sind, oder die Plagiatssuche im wissenschaftlichen Umfeld. Hierbei findet Heimdall nicht nur Passagen, die Wort für Wort übernommen sind, sondern auch solche, die zur Verschleierung umformuliert wurden, aber identische Inhalte aufweisen.
Heimdall erschließt für Unternehmen das Wissen in Dokumenten
In sämtlichen Fällen müssen die Auftraggeber ihre Dokumente nicht zwingend an den IT-Dienstleister übergeben. Da Heimdall nur lesenden Zugriff benötigt, kann das System je nach Sicherheitsanspruch und vorhandenen Schnittstellen auch direkt an die Dokumente andocken.
»Die Dokumente der Unternehmen bergen meist das gesammelte Wissen ihrer Mitarbeiter«, sagt Stefan Schreiber, Teamleiter Application Support bei Prego Services. »Mit Heimdall haben wir eine neuartige und leistungsfähige Lösung entwickelt, die ihnen dabei hilft, auf dieses Wissen zurückzugreifen, neue Zusammenhänge zu erkennen oder Probleme zu identifizieren.«
.