Preissenkung für Texterkennungsdienst von AWS

Verarbeitungsprinzip von Amazon Textract (Bild: AWS)

Der voll verwaltete Cloud-Dienst »Amazon Textract Amazon Web Services (AWS)« von AWS nutzt Machine Learning (ML), um automatisch gedruckten oder handgeschriebenen Text aus eingescannten Dokumenten zu extrahieren. Neben der einfachen optischen Zeichenerkennung (Optical Character Recognition, OCR) lassen sich mit Amazon Textract auch Daten aus Formularen und Tabellen identifizieren, verstehen und auslesen. Kunden nutzen dies, um unter anderem kritische Geschäftsprozessabläufe zu automatisieren beispielsweise bei der Bearbeitung von Rechnungen, Anträgen und Steuerformularen. Es kann die menschliche Überprüfungszeit reduzieren, die Genauigkeit verbessern, die Kosten senken und das Innovationstempo auf globaler Ebene beschleunigen.

Rechnungen und Quittungen automatisch auslesen

In den letzten Monaten hat AWS eine spezielle Unterstützung für die Verarbeitung von Rechnungen und Quittungen eingeführt und die Qualität der zugrundeliegenden Computer-Vision-Modelle verbessert, die die Extraktion von handgeschriebenem Text, Formularen und Tabellen mit Unterstützung für gedruckten Text in Englisch, Spanisch, Deutsch, Italienisch, Portugiesisch und Französisch ermöglichen.

Die Preissenkung von 1,875 US Dollar auf 1,5 US Dollar pro 1.000 Seiten für den Texterkennungsservice »DetectDocumentText API« tritt ab 1. September für die von Frankfurt aus gesteuerte europäische Region in Kraft. Ebenso wird der Preis für die Texterkennung aus Tabellen und Formularen »AnalyzeDocument API (forms + tables)« von 81,25 US Dollar auf 65 US Dollar für 1.000 Seiten reduziert. Beide Services lassen sich auch drei Monate kostenlos bis maximal 1.000 Seiten beziehungsweise 100 Formulare pro Monat testen.

Beschleunigte Verarbeitung von mehrseitigen Texten

Kunden können Textract synchron (bei einseitigen Dokumenten) und asynchron (bei mehrseitigen Dokumenten) für die Erkennung von gedruckten und handschriftlichen Zeilen und Wörtern (über die DetectDocumentText API) sowie für die Extraktion von Formularen und Tabellen (über die AnalyzeDocument API) aufrufen. AWS hat festgestellt, dass die überwiegende Mehrheit der Kunden Textract bei mehrseitigen Dokumenten und daher asynchron für die Verarbeitung ihrer Dokumentenpipeline im großen Maßstab aufruft. Durch Verbesserungen an den asynchronen API-Operationen von Textract konnte AWS nun die End-to-End-Latenz um bis zu 50 Prozent reduzieren. Je kürzer die Verarbeitungszeit, desto schneller können die Kunden ihre Dokumente verarbeiten, Skalierung erreichen und ihre Gesamtproduktivität verbessern.

Weiterführende Links

About the Author: Annette Stadler

Annette Stadler ist IT-Journalistin und leitet das Online-Portal ECMGUIDE.