Cloud Storage

Was ist ein Data Lake?

Was ist ein Data Lake? Post Cover

Wenn man als Unternehmen die vielen verschiedenen Vorteile der zunehmenden Vernetzung und Digitalisierung unserer Gesellschaft nutzen will, dann stößt man früher oder später auf Big Data: Riesige Datenmengen, die erfasst, gespeichert und ausgewertet werden müssen. Als eine der effektivsten Speichermethoden hat sich dabei der Data Lake erwiesen. Was das ist und warum
ein Data Lake so wichtig ist, erklären wir in diesem Artikel. 

Data Lake – ein Gewässer aus Daten 

Ein Data Lake ist ein sehr großer digitaler Datenspeicher, bei dem eine Vielzahl von Daten in ihren unterschiedlichen ursprünglichen Rohformaten an einem gemeinsamen Speicherort gespeichert werden können. Das bedeutet, dass die Daten nicht angepasst, bzw. das native Format der Daten
nicht geändert werden muss, um diese in einem Data Lake zu speichern.  

James Dixon, Chief Technology Officer von Pentaho, prägte den Begriff des Data Lakes. In der IT-Szene hat sich dieser Begriff dann festgesetzt, weil das Wort Lake (engl. für See) eben so gut die Eigenschaften eines Data Lakes beschreibt: Dabei handelt es sich um ein „Gewässer aus Daten“,
das nicht manipuliert wurde und quasi in seiner ursprünglichen Form besteht – die Daten werden zur Speicherung eben nicht verändert oder strukturiert, sondern behalten ihre ursprüngliche Form bei. 

Die Daten innerhalb eines Data Lakes können auf viele verschiedene Arten abgefragt werden. Zwar werden die Daten dann entsprechen der Nachfrage strukturiert, allerdings bleibt auch dabei das native Format erhalten. Für die Abfrage im Data Lake spielt es keine Rolle, welches Rohformat
die Daten haben, die Abfrage kann immer auf den gesamten Pool zugreifen. 

Warum sind Data Lakes so wichtig? 

Eines der größten Hindernisse bei Big Data ist die unglaubliche Vielfalt der gesammelten Daten. Scanner, intelligente Geräte, Finanztransaktionen sowie Mail-, Streaming-, und Social-Media Quellen speichern Daten alle in unterschiedlichen Formaten ab. Das kann alles von strukturierten
Datenbanken über Videodateien bis hin zu reinen Textformaten sein. 

Offensichtlich erschwert dies das Sammeln und Speichern, sowie vor allem das Auswerten dieser Daten ungemein. Denn auf traditionellen Datenspeichern mussten die verschiedenen Daten häufig angepasst bzw. modifiziert werden, um an einem gemeinsamen Speicherort gelagert werden zu
können. Das bedeutet also, dass durch eine Manipulation der Daten versucht wurde, die Format möglichst einheitlich zu gestalten. 

Und selbst wenn nicht: Spätestens für eine Abfrage bzw. Auswertung dieser Daten müssen die Datensätze dann angepasst werden, da die vielen verschiedenen Formate ansonsten nicht verwertbar waren. Das allerdings hat einen starken negativen Effekt auf den Wert der gesammelten Daten. Sowohl die Qualität als auch die möglichen Verwendungszwecke werden dadurch stark
eingeschränkt. 

Das Problem mit herkömmlichen Datenspeichern 

Wie bereits erwähnt, hat die nötige Angleichung der Daten in herkömmlichen Speichern einen massiven negativen Effekt auf den Wert der Daten. Erstens kann keine manipulierte Version eines Datensatzes die gleiche Qualität wie die originalen Daten haben. Das bedeutet im Umkehrschluss, dass bei der Veränderung der Datensätze immer wichtige Informationen verloren gehen. 

Darüber hinaus werden die möglichen Einsatzzwecke der Daten stark eingeschränkt. Denn wenn die Daten für eine bestimmte Art der Abfrage manipuliert werden, dann können sie nicht mehr verwendet werden, wenn später eine andere Art der Datenabfrage bzw. Analyse nötig ist. So verlieren Daten unglaublich schnell an Wert, was wiederum bedeutet, dass man von den
gesammelten Daten nur schwer langfristig profitieren kann. 

Mit einem Data Lake werden alle diese Probleme vermeiden. Denn wie bereits erwähnt, werden dabei alle Daten in ihren nativen Formaten gespeichert, ganz egal, wie unterschiedlich und vielfältig diese Dateiformate sind. Die Rohdaten bleiben also unstrukturiert und unverarbeitet, bis zu dem
Zeitpunkt, an dem Sie abgefragt werden. Und auch wenn es zur Abfrage kommt, bleiben alle Informationen erhalten und werden vor der Speicherung weder entfernt noch gefiltert.

Das bedeutet, dass man als Ergebnis einer Abfrage die Daten mit der höchsten Qualität erhält. Da die Daten aber auch bei einer Abfrage in ihrem nativen Format erhalten bleiben, kann man die entsprechenden Informationen immer wieder abfragen, und zwar auf unterschiedlichste Art und Weise. Der Wert der Daten bleibt so theoretisch für immer erhalten. 

So vermeidet man den Data Swamp 

Warum ein Data Lake so wichtig ist, haben wir jetzt bereits erklärt. Dabei ist es allerdings wichtig zu beachten, dass die Tatsache, dass das Format der Daten innerhalb eines Data Lakes unangetastet bleibt, nicht bedeutet, dass man einen Data Lake nicht warten oder pflegen muss. Ansonsten
wird aus dem Daten-See nämlich schnell ein Sumpf: Der Data Swamp. Tatsächlich ist genau das der Fachbegriff für Data Lakes, die für den Nutzer nicht mehr zugänglich oder verwertbar sind. 

Um einen Data Swamp bzw. den daraus resultierenden unnützen und teuren Datenmüll zu vermeiden, muss ein Data Lake also regemäßig gewartet und gut organisiert sein. Möglichst präzise Metadaten sind wichtig, um den tatsächlichen Wert von Daten erkennen und nutzlose bzw. nicht mehr relevante Daten rechtzeitig aussortieren zu können. Eine automatische Löschung von Daten,
die nicht den Mindestanforderungen entsprechen, reduziert den Arbeitsaufwand extrem. Darüber hinaus darf auch die Sicherheit bzw. die Aktualisierung der Sicherheitsvorkehrungen nicht vernachlässigt werden.