Ein Data Lake ist ein Speicher-Repository, das eine große Menge an Rohdaten in ihrem nativen Format so lange hält, bis es gebraucht wird. Der Begriff Data Lake wird oft in Verbindung mit Hadoop-orientiertem Objektspeicher (Object Storage) gebraucht. In einem solchen Szenario werden die Daten einer Organisation zuerst in die Hadoop-Plattform geladen, und dann mit Business-Analytics- und Data-Mining-Tools verbunden. Die herausgefilterten Daten befinden sich anschließend auf Hadoop-Cluster-Knoten von Commodity-Computern.

Wie Big Data wird der Begriff Data Lake manchmal einfach als ein Marketing-Label für ein Produkt, das Hadoop unterstützt, verunglimpft. Mittlerweile wird aber der Begriff zunehmend als Beschreibung für eine große Datenbasis benutzt, in der das Schema und die Datenanforderungen noch nicht definiert sind, bis die Daten durchsucht und analysiert wurden.
First published: 30. April 2015
Last Update: not yet