Skip to main content

Wo beginnt Big Data? So finden Sie heraus, ob Ihre Anwendung reif für den Wandel ist.

Sie nutzen eine Anwendung, in der sich große Datenmengen angesammelt haben – wahrhaft gewaltige Volumina. Doch kann man schon von Massendaten sprechen? Gar nicht so leicht zu sagen, ob die Schwelle zur modernen – und manchmal beängstigenden – Big-Data-Wel

Teil 1 unserer Reihe zu Big Data:

Sie nutzen eine Anwendung, in der sich große Datenmengen angesammelt haben – wahrhaft gewaltige Volumina. Doch kann man schon von Massendaten sprechen? Gar nicht so leicht zu sagen, ob die Schwelle zur modernen – und manchmal beängstigenden – Big-Data-Welt schon überschritten wurde. Denn wo liegt die eigentlich? Bei 10.000 Datensätzen? Zehn Millionen? Einem Terabyte Daten?

Die Antwort lässt sich nicht einfach auf eine Zahl herunterbrechen. Das Datenvolumen ist zweifellos ein wichtiger Faktor. Doch darüber hinaus muss die Komplexität der Daten bedacht werden. Sie müssen wissen, wie schnell neue Datensätze eingehen – und wie schnell die Daten Benutzern zur Verfügung stehen sollen, ist ebenfalls ausschlaggebend.

Big Data – einfache Definition

Michael Driscoll, der Gründer und CEO von Metamarkets, definiert Big Data ganz einfach als Daten, die verteilt sind. Für ihn ist die Schwelle im Prinzip schon dann überschritten, wenn die Daten nicht mehr auf einem einzigen Computer gespeichert werden können. Er erklärt Big Data an diesem Diagramm:

Klasse

Größe

Verwaltung mit

Benötigter Speicherplatz

Beispiele

Klein

<10 GB

Excel, R

Arbeitsspeicher eines Rechners

Tausende von Umsatzzahlen

Mittel

10 GB – 1 TB

indizierten Dateien, monolithischer Datenbank

Festplattenspeicher eines Rechners

Millionen von Webseiten

Groß

> 1 TB

Hadoop, verteilten Datenbanken

Auf mehreren Rechnern gespeichert

Milliarden von Internetkontakten


Eine andere gängige Definition lautet: Die Schwelle zu Big Data ist erreicht, wenn die bestehenden Techniken und Technologien zur Datenverwaltung nicht mehr ausreichen. Konkreter: Wenn die Daten nicht mehr auf normale Festplatten passen, die Rechenleistung nachlässt, Suchen oder Analysen zu lange dauern, Server überhitzen, neue Datensätze schneller generiert werden, als sie transferiert werden können usw. Dann braucht es modernere Techniken und Technologien – Open-Source-Produkte wie Spark oder Hadoop, ETL-Prozessmethoden, einen ausgefeilteren Lastausgleich, intelligentere Such-Tools usw.

Bei beiden Definitionen ist der Ausgangspunkt recht simpel. Da jedoch verteilte, cloudbasierte Architekturen heute (aus Komfort- und Kostengründen) allgegenwärtig sind, verwischen die Grenzen zwischen den Größenordnungen „Mittel“ und „Groß“. Den einen Moment, in dem Ihr Server nicht mehr ausreicht, alle Datensätze zu verarbeiten und ab dem Sie zu einer verteilten Architektur wechseln müssen, wird es nicht geben. Es wird nicht plötzlich jemand im Unternehmen feststellen, dass Sie „jetzt aber wirklich“ Big Data haben. Stattdessen wird das Wachstum inkrementell verlaufen, von einigen AWS-Servern hin zu mehr und mehr Rechenleistung und Speicherkapazität. Und eines Tages werden Sie den Schritt zu Big Data vollzogen haben, ohne dass Sie es gemerkt haben.

Was die Definition von Big Data betrifft, ist unter Branchenkennern oft auch die Rede von den 4 V: Volume (Volumen), Variety (Vielfalt), Velocity (Geschwindigkeit) und Veracity (Wahrhaftigkeit).

Die „4 V“ von Big Data

Was die Definition von Big Data betrifft, ist unter Branchenkennern oft auch die Rede von den 4 V: Volume (Volumen), Variety (Vielfalt), Velocity (Geschwindigkeit) und Veracity (Wahrhaftigkeit). Was es damit auf sich hat, wird auf IBM Big Data & Analytics Hub in einer hilfreichen Infografik erläutert: http://www.ibmbigdatahub.com/infographic/four-vs-big-data

Volume meint die Datenmenge, Variety bezieht sich auf Formen und Strukturen der Daten. Velocity beziffert die Geschwindigkeit, mit der neue Daten eingehen und nutzbar gemacht werden müssen. Veracity schließlich ist das Maß für die Genauigkeit und Vertrauenswürdigkeit der Daten. Wie dieses Diagramm von Data Science Central zeigt, kann eine beliebige Kombination der ersten drei Faktoren dazu führen, dass eine Anwendung die Schwelle zur Big-Data-Sphäre überschreitet. http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data

Doch was bedeutet all das eigentlich? Was kommt auf uns zu? Das Unternehmen Cloudtweaks beziffert in diesem faszinierenden Artikel nebst Infografik die Rate, mit der neue Informationen generiert werden, mit 2,5 Trillionen Byte Daten pro Tag. Das ist eine 2,5 gefolgt von 18 Nullen! Es wird also nicht mehr lange dauern, bis alle Systeme oder Anwendungen, die wir nutzen, nach Big-Data-Prinzipien arbeiten müssen. Vielleicht erübrigt sich da die Frage, wo genau die Big-Data-Schwelle liegt, und ob Ihre Daten einfach Daten oder BIG DATA sind. Fragen Sie sich stattdessen doch einmal, ob Ihre Systeme, Applikationen, Technologien, Such-Tools und Ihre Infrastruktur für die aktuellen Datenmengen und die Bedürfnisse Ihrer Benutzer ausgelegt sind. Oder belegen Ihre Daten lediglich wertvollen Server-Speicherplatz?

In den kommenden Artikeln unserer Reihe zum Thema Big Data gehen wir auf diese Frage näher ein. Wir untersuchen, wie Sie das Optimum aus Ihren Massendaten herausholen, was Big Data für das Reporting bedeutet, wie ERP-Systeme helfen können, Daten effektiv zu verarbeiten, und welche Tools und Techniken Sie schon jetzt nutzen können, um Ihre Systemleistung zu verbessern.

Lesen Sie hier in Kürze Teil 2: Wie Big Data das Reporting verändert.

Kontakt

The information shared here will be treated confidentially and only used by abas Software AG & abas software partners regarding our protection policy.