Cloud Technology

Big Data erklärt

Big Data erklärt Post Cover

Eine der größten Errungenschaften der fortschreitenden Digitalisierung und Vernetzung unserer Welt ist sicherlich, dass Unternehmen heutzutage so viele Daten wie niemals zuvor sammeln, auswerten und wiederverwenden. Dadurch entsteht ein riesiger Datenberg: Big Data. Welche
Technologien eingesetzt werden, um Big Data richtig zu verwalten und warum dieser Bereich in der Zukunft immer wichtiger wird, verraten wir im folgenden Leitfaden. 

Was ist Big Data?

Der Begriff Big Data bezeichnet in der IT-Branche inzwischen tatsächlich zwei verschiedene Dinge: Einmal das immer weiter ansteigende Volumen der Daten, die Unternehmen jeden Tag sammeln. Zweitens sind damit aber auch neue Technologien und Modelle gemeint, mit denen sich eben dieses steigende Volumen sinnvoll und zum Vorteil des eigenen Unternehmens nutzen lässt. 

Denn auch wenn Daten als das Gold des 21. Jahrhunderts bezeichnet werden: Nur viele Daten zu sammeln bringt nichts, wenn man eben diese Daten nicht auch verwerten und dann gewinnbringend einsetzen kann. Bei den riesigen Datenmengen, die in modernen Unternehmen inzwischen entstehen, ist die Umsetzung allerdings gar nicht so einfach. Big-Data Technologie ist daher
eine der wichtigsten Technologien und Felder des digitalen Zeitalters überhaupt. 

Die drei Vs 

Das Phänomen von zu großen Datenmengen gibt es bereits seit der Erfindung des Internets. Doch erst seit der Branchenanalytiker Doug Laney zu Beginn der 2000er Jahre den Begriff von Big Data genau definierte, wird die Bezeichnung branchenweit verwendet. Laney definierte Big Data anhand
des Drei-Vs Modells, das auch heute noch verwendet wird. 

Die drei Vs:

  • Volume
  • Velocity
  • Variety

Mit Volume wird beschreiben, dass Unternehmen inzwischen eine unglaubliche Menge an Daten aus den unterschiedlichsten Quellen sammeln. Dazu gehören zum Beispiel geschäftliche bzw. finanzielle Transaktionen und die unzähligen Sensoren des IoT. Aber auch das Sammeln der Daten von Videos,
Nachrichten, Mails und vor allem Social Media Aktivtäten wird immer wichtiger.

Velocity bezeichnet die Geschwindigkeit, mit der Daten bei Big Data verarbeitet und gesammelt werden. Vor allem, seit dem durch das IoT (Internet of Things) und Social Media Datensätze in kürzester Zeit gesammelt werden können, müssen die Datenströme in einer immer höheren
Geschwindigkeit weitergeleitet und verarbeitet werden. Das Ziel ist dabei immer eine Echtzeitauswertung der Daten. 

Variety ist eine der größten Herausforderungen bei Big Data: Die riesigen Datenmengen stammen aus den unterschiedlichsten Quellen und werden daher in den unterschiedlichsten Formen gesammelt: Textdokumete, Videos, Transaktionsfiles genauso wie numerische und strukturierte Daten aus Datenbanken. Das macht es extrem schwer, eine Lösung zu finden, die Daten aus allen Quellen auslesen und verwerten kann. 

Zwei Vs mehr 

Inzwischen hat sich die Definition von Big Data um zwei weitere Vs erweitert: Variability und Veracity. Variability gibt an, dass nicht nur die Quellen der Daten, sondern auch die tatsächliche Menge der gesammelten Daten stark schwanken kann. Vor allem in Bereichen, die stark Nutzerabhängig sind, wie z.B. Social Media, kommt es zu hohen Varianzen. 

Veracity fügt diesem Problem noch einen weiteren Faktor hinzu: Auch die Qualität, bzw. Verwertbarkeit der Daten ist stark schwankend. Wie bereits erwähnt, nützt es wenig, möglichst viele Daten zu sammeln, wenn diese dann nicht verwertet werden können. Daten aus verschiedenen Quellen müssen also nicht nur aneinander angeglichen werden, sondern darüber hinaus
auch noch auf ihre Qualität geprüft werden. 

Die Hardware für Big Data

Da es bei Big Data vor allem um das Sammeln, Speichern und Auswerten von Daten geht, ist es wenig verwunderlich, dass die verfügbare Speicher-Hardware entscheidend für den Fortschritt bei Big Data ist. Als einer der wichtigsten Fortschritte gilt dabei die Möglichkeit, Daten inzwischen mit
dem In-Memory Computing abzulegen und nicht mehr auf externe Speicher übertragen zu müssen. 

Natürlich zählen aber auch die Geräte, die die tatsächlichen Daten sammeln, zur für Big Data benötigten Hardware. Bei tatsächlichen Anwendungen wären das in erster Linie Sensoren aus dem Internet of Things sowie die mobilen Endnutzergeräte wie Smartphone und Tablet. In beiden Bereichen geht der Trend auch hier zu einem immer umfassenderen Sammeln der Daten. 

Die Software für Big Data 

Die verfügbaren Cloud Computing bzw. Software Services für Big Data haben sich in den letzten Jahren stark weiterentwickelt und ermöglichen eine immer effektivere Nutzung von Big Data. Dazu gehören in erster Linie für die Big Data Analyse. Bei den heutigen Datenmengen wäre es schließlich absolut ineffektiv und schlicht unmöglich, alle Daten von einer realen Person auswerten
zu lassen. 

Big Data Analyse wird deshalb verwendet, um die Qualität der Daten eizuordnen und den Data Scientists dann nur die Datensätze zur Verfügung zu stellen, die wirklich relevant sind. Darüber hinaus wird Big Data Analyse auch eingesetzt, um Belastungsspitzen und Leerlaufzeiten vorherzusagen und so eine erhöhte Skalierbarkeit erzielen zu können. Zusätzlich dazu kommen Software Lösungen zum tatsächlichen Sammeln der Daten zum Einsatz, die eine Vereinheitlichung, Komprimierung und Weiterleitung der Datenströme deutlich vereinfachen.

Die Anwendungsbereiche von Big Data sind dabei so vielfältig wie die Anwendungsbereiche der Digitalisierung selbst. Ganz egal, ob im Finanzwesen, im Einzelhandel, im Gesundheitswesen, der Versicherungsbranche oder bei Regierungen: Überall kommen bereits Big-Data Anwendungen zum Einsatz.