DATA LAKE.

Im Rahmen von Big Data tauchen immer wieder die Begriffe Data Lake, Data Warehouse (DWH) und mittlerweile sogar Data Lakehouse auf, vor allem in Zusammenhang mit der Speicherung von sehr großen Datenmengen und deren Auswertung durch Business Intelligence. Während diese bildhaften Ausdrücke bereits eine gewisse Idee ihrer Bedeutung vermitteln – Data Lakes umfassen viele Daten ungeordnet gewissermaßen schwimmend, Data Warehouses lagern Daten geordnet ein und Data Lakehouses kombinieren beide Systeme – vermittelt der folgende Artikel die wichtigsten Informationen für ein besseres Verständnis der Vor- und Nachteile von Data Lakes.
Overview

Was ist ein Data Lake?

Anders als ein Data Warehouse speichert ein Data Lake als zentrales Zielsystem oder Repository große Mengen aller erdenklichen Datenarten, aus unterschiedlichsten Quellen in ihrem nativen Rohformat. Dabei beherbergen Data-Lake-Lösungen strukturierte oder unstrukturierte Datenformate beispielsweise mit Informationen aus ERP- oder CRM-Systemen und Sensoren aber auch Bilder oder Videos. Ebenfalls im Unterschied zum Data Warehouse liegt beim Data-Lake-Konzept die genaue Verwendung der unverarbeitet gespeicherten Daten noch nicht fest. Dennoch ist – analog zum Data Warehouse – Sinn und Zweck der Data-Lake-Architektur, die Verfügbarkeit großer Datenvolumen im Vorfeld von Business Analytics sicherzustellen und damit datenbasierte Unternehmensentscheidungen zu ermöglichen.

 

Wie funktioniert ein Data Lake?

Ein Data Lake ist eine Datenbank, die den Import hoher Datenvolumina möglich macht. Sogar in Echtzeit. Dadurch, dass die Daten in ihrem ursprünglichen Format ohne Definition von Datenformaten, Schemata oder Transformationen gespeichert werden, verkürzt sich die Ladezeit. Daten sind also schnell verfügbar und lassen sich leichter für Big-Data-Analysen aktualisieren. Der Organisationsaufwand zum Betrieb von Data Lakes fällt somit sehr viel geringer aus als bei Data Warehouses. Dabei erfolgt der Impuls zum Aufbereiten der geladenen Daten immer bedarfsorientiert durch den Nutzer, der diese leichter formen und damit für unterschiedliche oder sich verändernde Analyseziele einsetzen kann. Da Data Lakes keine Struktur und damit keine Einschränkungen aufweisen, gelten sie des Weiteren als gut zugänglich. Andererseits führt gerade die fehlende Struktur dazu, dass eigentlich nur Data Scientists Lake-Lösungen kompetent verwerten können.

Eine Variante der Data Lakes ist ein Hadoop Data Lake. Er dient mithilfe mehrerer Cluster-Rechnerknoten aus handelsüblicher Hardware vor allem der Bereitstellung von Daten im Hadoop System HDFS. Hadoop Lakes werden beispielsweise eingesetzt, um bestehende Datenquellen zu bündeln, Netzwerkdaten von entfernten Standorten zu integrieren oder Daten aus überlasteten Systemen zwischenzuspeichern. Zudem kann ein Hadoop Data Lake ein Data Warehouse ergänzen, die Transformation von Daten übernehmen und dann die bereits aufbereiteten Informationen an das Data Warehouse übertragen.

Generell können Data Lakes auf den verschiedensten Plattformen realisiert werden beispielsweise On-Premise, aber auch über Cloud-Umgebungen wie z.B. Google Cloud, AWS oder Microsoft Azure.

 

Was ist zu berücksichtigen?

Um erste Schritte im Bereich Data Lakes oder bei der Entscheidung für oder gegen Data Warehouses zu unternehmen, sollten Unternehmen folgende Punkte bedenken:

Data-Governance-Mechanismen
Der große Vorteil von Data Lakes, dass sie unterschiedlichste Daten in unterschiedlichsten Formaten vorhalten, ist zugleich ein Nachteil oder zumindest eine Herausforderung. Damit Unternehmen Data Lakes tatsächlich im Rahmen von Big Data oder Analytics nutzen können, müssen sie zuvor Mechanismen definieren, um gewünschte Daten schnell finden und dabei dem heterogenen Datenbestand vertrauen zu können. Fehlen Kriterien zur Wahrung der Datenqualität und einer korrekten Data Governance, verkommt der Daten-See zum Daten-Sumpf (Data Swamp) und wird unbrauchbar.

Storage
Auch im Hinblick auf die benötigte Speicherkapazität kann sich das Laden großer unstrukturierter Datenmengen als nachteilig erweisen, sodass auf ausreichende Storage-Möglichkeiten zu achten ist. Das Argument, dass teurer Speicherplatz verschwendet wird, greift allerdings heute weniger als noch vor einiger Zeit. Denn die Kosten für Cloud Computing sinken beziehungsweise passen sich über Pay-as-you-go-Modelle dem jeweiligen Use Case an. Somit wird die Rechenleistung virtueller Systeme für die Transformation nach dem Load günstiger und die Speicherung unstrukturierter Daten interessant.

Verfügbarkeit von Data Scientists
Ein gewichtiges Argument gegen den Einsatz von Data Lakes ist der Mangel an IT-Fachkräften. Business-Anwender tun sich oftmals schwer mit der Analyse unverarbeiteter Daten, sodass Data Scientists und besondere Tools zum Einsatz kommen müssen, um die verfügbaren Daten für unternehmensspezifische Analysen aufzubereiten bzw. überhaupt verwertbar zu machen.

 

Vorteile durch Data Lakes.

Zeit ist Geld – diese Alltagsweisheit verdeutlicht auch im Bereich Data Lakes sehr gut, worin einer der Hauptvorteile dieser Datenbank liegt.

Einsparpotenziale durch hohe Datenverfügbarkeit
Da bei Data Lakes nicht mehr die Struktur der Daten im Fokus steht, sondern die Rohdaten oder leicht vorgefilterte Daten direkt auf das Zielsystem übertragen werden, stehen sie folglich sehr schnell, historisch komplett und in größerer Menge als bei Data Warehouses zur Verfügung. Ein weiterer Zeit- und damit Kostengewinn ergibt sich, wenn sich während einer Analyse die Ausrichtung verschiebt: In solchen Fällen ist kein Zurück-auf-Los erforderlich, da im Data Lake bereits umfangreiche Daten vorliegen.

Cloud-optimierte Data-Lake-Nutzung
Während ein Aufstocken der Rechen- und Speicherkapazität früher hohe Kosten für Hardware erforderte, können solche Anschub-Investitionen inzwischen entfallen. Setzen Unternehmen auf virtuelle Infrastrukturen oder gehostete Services, umgehen sie das Risiko sowohl unzureichender als auch ungenutzter Leistung. Bei Microsoft Azure zum Beispiel können kostenintensive Analysedienste oder Speicherkapazitäten bedarfsgerecht an- und abgeschaltet werden. Aber obwohl die Preise für die Cloud sinken, summieren sich die Einzel- und Zusatzleistungen bei wachsenden großen Datenmengen dennoch zu hohen Beträgen auf, die ein überlegtes Management-Konzept sinnvoll machen. Denn selbst bei Maschinenkosten von beispielsweise nur 0,12 Euro pro Minute in der Cloud, können sich die monatlichen Ausgaben schnell auf mehrere Hundert Euro belaufen. Kosten für Plattenplatz und Transaktionsvolumen kommen hinzu, ebenso die Multiplikation des Cent-Betrags durch zahlreiche, iterative Abfragen durch Mitarbeitende. Sinnvoll eingesetzt, bietet Cloud Computing aber einen wirklichen Mehrwert. Allerdings bestehen im Mittelstand häufig Unsicherheiten bezüglich der konkreten Umsetzung, weshalb sich gerade für diese Betriebsgröße ein hybrides Modell anbietet.

Datenanalyse als Wettbewerbsvorteil
Unternehmen, die ihre Daten als Asset nutzen, können sich im Wettbewerb sehr viel besser positionieren. Beim Erkennen von Wachstumschancen sind Künstliche Intelligenz und Machine Learning als Analyse-Methoden hilfreich. Denn Maschinelles Lernen bedient sich neuer Datenquellen wie zum Beispiel Protokoll-Dateien, Click- oder Social-Media-basierter Informationen oder Data aus Smart Devices, d.h. mit dem Internet verbundenen Geräten. Die Interpretation dieser Art neuer Daten hilft, Kundenakquise und -bindung nachfrageorientiert auszurichten, die Produktivität durch prospektive Maschinenwartung zu steigern und Markttendenzen frühzeitig zu erkennen.

Wertorientierte Datenanalyse
Eine wertorientierte Analyse von Daten aus dem Data Lake versorgt nach deren Aufbereitung nicht nur Fachabteilungen mit den erforderlichen KPIs. Sondern sie gibt Data Scientists die Möglichkeit, basierend auf wirklich großen Datenmengen neue Erkenntnisse zu gewinnen und neue Korrelationen zu entdecken. Für die Management-Ebene bedeutet dieses neue Kapital, dass man sehr viel früher und vor allem fundierter als bisher, strategische Zukunftsentscheidungen treffen und Innovationsprozesse anstoßen kann.


Welche Lösung bietet Lobster?

Aus dem bisher Beschriebenen ergibt sich, dass es bei der Frage Data Lake oder Data Warehouse ein eindeutiges Entweder-Oder nicht gibt.

Deshalb bietet Lobster einen hybriden Ansatz und bringt in seinem ETL/ELT-Modul für die Datenintegrations-Software Lobster_data das Beste aus beiden Ansätzen zusammen. Mit dem Lobster Tool ist es möglich, sowohl Data Lakes als auch Data Warehouses zu bedienen, in ein Big-Data-System wie zum Beispiel Hadoop zu schreiben, bereits vor dem Load eine gewisse Bereinigung der Daten vorzunehmen, somit Map-Reduce-Regeln zu vereinfachen und das Risiko einer Datenverunreinigung im Data Lake zu verhindern. 

Lobster arbeitet zudem in einem zweistufigen System: dokumentenorientiert mit Lobster_data Profilen und eher zeilenorientiert mit dem ETL/ELT-Modul. Daraus ergibt sich eine signifikant verbesserte Performance in der sequentiellen Verarbeitung und eine Optimierung des benötigten Speicherverbrauchs. 

Lobster bietet also eine kombinierte Lösung, die Lobster_data Profile plus ETL/ELT-Modul plus Workflow-Modul plus Monitoring im „Control Center“ plus Cloud-System umfasst. Als Stand-alone-Lösung wäre jede Datenbank-Struktur nur eine Art Autobahn von der Datenquelle zum Datenziel ohne großen Mehrwert. Erst aus dem Gesamtpaket ergeben sich erhebliche Vorteile der Datenaufbereitung im Vorfeld von Business Intelligence und Business Analytics.

DIGITALISIERUNG

Automatisierung, E-Fulfillment, E-Invoicing, Plattformen, Process Mining

DatenIntegration

Data Lake, Data Warehouse, Datenintegration, EAI, EDI, ERP-Systeme, INFOR LN, Protokolle

Hybrid IT

Kollaboration, Remote Work

Green IT

Nachhaltige Rechenzentren
  • Gute Dinge wachsen langsam

    Coming soon...

Lobster_LoadBalance3650

DARUM ZU LOBSTER.

Zur LIVE-Demo.

LOBSTER kennenLERNEN.

Oder rufen Sie uns an:

Zur Live-Demo.

Lernen Sie LOBSTER_data kostenlos kennen. Anmelden und Loslegen.

Oder rufen Sie uns an:

Zur Live-Demo.

Lernen Sie LOBSTER_data kostenlos kennen. Anmelden und Loslegen.

Oder rufen Sie uns an: