Data Lakes effizient verwalten

Big Data ist für die digitale Transformation unverzichtbar, wird doch die Fähigkeit, Daten gewinnen und auswerten zu können nach einhelliger Ansicht der Experten für Unternehmen zu einem strategischen Erfolgsfaktor. Die meisten Firmen wissen das zwar, werden aber dennoch von der Flut der intern anfallenden und der extern verfügbaren Daten schlichtweg überschwemmt.

In Deutschland haben Firmen aus Fertigung, Gewerbe, Handel oder auch Logistik hervorragende Voraussetzungen, datenorientierte Geschäftsmodelle umzusetzen. Einer Studie von Bitkom Research und KPMG zufolge nutzen über ein Drittel der Firmen hierzulande Big Data für die Auswertung großer Datenmengen. Dazu wird inzwischen oft die Open-Source-Technologie Hadoop verwendet, um detaillierte Rohdaten von einer Vielzahl von Quellen in ein neuerdings als Data Lake bezeichnetes, konsolidiertes Repository zu laden.

Allerdings zeigte eine Studie von Ventana Research, dass die verwendete Technologie in vielen Fällen nicht geeignet ist, die hohen Erwartungen zu erfüllen. Fast die Hälfte der Umfrageteilnehmer bemängelt, dass es ihnen nicht möglich ist wie gewünscht, Daten von unterschiedlichen Quellen zu integrieren und zu standardisieren. Nahezu ebenso viele verbringen zudem mehr Zeit damit, Daten für die Auswertung aufzubereiten, als mit der tatsächlichen Auswertung.

Um diese und weitere, oft erst auf den zweiten Blick und nach einiger Zeit der Nutzung auftretende Probleme von Data Lakes zu vermeiden oder zu beheben, bietet sich die Daten-Virtualisierung an. Wie sich damit ein virtueller oder logischer Data Lake erstellen lässt und welche Vorteile das bietet, erfahren Sie in diesem englischsprachigen Whitepaper von Denodo.