Big Business durch Big Data

Datenanalyse bestimmt die Geschäftsmodelle

 12.03.2020     Data Science

Neulich musste ich mal wieder mit ansehen, wie mein Lieblingsverein in der Fußball-Bundesliga verloren hat. Für die Experten auf der Tribüne war die Sache schnell klar: Wer nicht genug läuft, kann auch nicht gewinnen. Am nächsten Tag las ich es schwarz auf weiß in der Zeitung. Nur 112 km sei die Mannschaft gelaufen, der Gegner 119 km und damit satte 7 km mehr.
 
Heutzutage sammeln die Fußballvereine massenhaft leistungsrelevante Daten ihrer Kicker, indem sie unzählige Kameras im Stadion und auf dem Trainingsplatz installieren. Bis zu 25 mal je Sekunde ermitteln Chips an Körper und Beinen Positionen und Laufwege, um die Fähigkeiten der Spieler zu verbessern.


Massenhaft Daten

Es werden praktisch überall Daten in großen Mengen gesammelt. Ob Sie Einkaufen, eine Reise buchen oder eine Eintrittskarte für ein Musikkonzert im Internet bestellen – nichts bleibt den Datensammlern verborgen. Die Algorithmen in den Rechenzenten erkennen den individuellen Nutzer, analysieren das Surfverhalten und verkaufen beispielsweise darauf basierend einem Anzeigenkunden Werbeflächen.
 
Die Liste der unterschiedlichen Datensätze ist lang. So sammeln die Systeme die Daten finanzieller Transaktionen, Web-Protokolle aus dem Browser, Verbindungsdaten von SMS und Telefonaten, Standortdaten von vernetzten Geräten sowie Navigationssystemen und vieles mehr. Jeder Mensch trägt wissentlich oder unwissentlich dazu bei.
 
Und die Mengen sind gigantisch. Während Handys oder Laptops die Datenmengen bestenfalls in Terabyte bemessen, rechnen Unternehmen in Petabyte, Exabyte oder Zettabyte. Letzteres ist eine Zahl mit 21 Nullen und entspricht einer Milliarde Terabytes.
 
Wenn wir so weiter sammeln, so eine Studie der IT-Unternehmen IDC und Seagate von 2018, steigt die weltweite Datenmenge bis zum Jahr 2025 auf 175 Zettabyte. Fast die Hälfte der weltweit gelagerten Daten befände sich dann in der Public Cloud. Das ist Big Data!
 
Big Data Grafik
 

V wie Victory

Big Data definiert sich durch die drei sogenanten Vs: Volume, Variety und Velocity. Der Begriff Volume beschreibt die extrem hohen Datenmengen, die ein Unternehmen produziert. Ohne Pause, rund um die Uhr treffen Daten ein: von Smartphones, Tablets oder Sensoren.
 
Big Data fängt also immer klein an, beim Nutzer, bzw. dem Gerät. So entstehen bei Webseiten mit einer hohen Besucherzahl Daten im Bereich von Gigabyte bis Terabyte. Untersuchungen zufolge stammen drei Viertel der gesammelten Daten von privaten Nutzern. Da der Datenberg ständig wächst und aus unterschiedlichsten Datentypen besteht, weist er meist keine offenkundigen Zusammenhänge auf. Dies meint Big Data mit dem Begriff Variety.
 
Abhilfe schaffen spezielle Suchalgorithmen, die den Daten wieder eine Struktur geben und auf Zusammenhänge untersuchen. Da die modernen Prozesse diese Auswertung in Sekunden bzw. Echtzeit durchführen können, ist die Velocity, die Auswertungsgeschwindigkeit heute kein großes Problem. Schließlich sollten Sie noch ein viertes V beachten, den Value. Dies ist der unternehmerische Mehrwert von Big Data. Denn Datensammeln bringt Geld!
 

Das moderne Data Warehouse

Eine der größten Herausforderungen ist es, aus dem Datensalat die richtigen Schlüsse zu ziehen. Denn die gespeicherten Informationen sind das Kapital eines Unternehmens. Viele Business Intelligence Lösungen basieren noch auf sogenannten relationalen Datenbanken. Diese sind, vereinfacht gesagt, eine Sammlung von Tabellen mit den Daten, den Relationen. Die einzelnen Tabellenzeilen sind die Datensätze. Der Administrator einer Datenbank bestimmt die Abfragemöglichkeiten, indem er die Struktur und Semantik der Tabellen und ihrer Datensätze festlegt.
 
Das heißt: Sie können nur die Attribute abfragen, die der Mitarbeiter angelegt hat. Daher müssen Sie schon vorher wissen, was Sie abfragen möchten. Die Suche nach bisher unentdeckten Zusammhängen ist also sehr eingeschränkt. Zudem agieren diese Datenbanken sehr träge und werten daher die Daten eines Data Warehouses nachts aus.
 
Es ist also unsinnig, wenn Sie große Rohdatenmengen in ein relationales System zwängen, ohne zu wissen, wonach Sie suchen. Teuer ist die klassische Methode zudem. Im Vergleich zu einer modernen Big-Data-Lösung müssen Sie bis zum zwanzigfachen des Preises berappen. Big-Data-Architekuren arbeiten nach dem „Schema on Read“ und untersuchen mit vielfältigen Analyse-Tools die Daten nach Mustern und Zusammenhängen, an die man bisher noch gar nicht gedacht hat. Außerdem sind Big-Data Lösungen sehr flexibel bzgl. der Datenformate.


Kein Elefant im Porzellanladen

Eine weitverbreitete Big-Data Lösung ist das kostenlose Hadoop oder genauer Apache Hadoop. Veröffentlicht wurde dieses Java-basierende Software-Framework im Jahr 2005 von den damaligen Yahoo-Mitarbeitern Mike Cafarella und Doug Cutting. Hadoop, benannt nach dem Spielzeugelefanten von Cuttings Sohn, verarbeitet große Datenmengen auf verteilten physikalischen Systemen mit hoher Geschwindigkeit. Die zentralen Funktionen übernehmen dabei das Filesystem HDFS (Hadoop Distributed Filesystem) und der MapReduce Algorithmus.
 
MapReduce teilt ein Datenproblem in viele kleine Stücke und verteilt sie auf verschiedene Server. Die Server verarbeiten die Daten dann mit Hilfe ihrer lokalen Ressourcen. Dadurch eignet sich Hadoop besonders im Business-Intelligence-Umfeld. Hadoop speichert die Rohdaten, bearbeitet sie vor und verbindet sie mit anderen Datenquellen. Dann übergibt die Software diese Informationen an das BI-System.
 
Web-Analyse Tools wie Omniture oder Google Analytics können dagegen nur das Benutzerverhalten beim Besuch einer Webseite analysieren und diese nicht mit anderen Daten verknüpfen. Big Data revolutioniert somit das Wirtschaftsleben, in dem Daten zu einem Produktionsfaktor geworden sind. Dabei nutzt eine Big-Data-Architektur diverse Quellen, wie etwa:
  • Clickstream-Analyse – Web Analytics
  • Stimmungsanalyse aus Social Media
  • Log Dateien
  • Sensordaten
  • Texte, Sprache und Videodaten

Big Data Hadoop


Datenanalyse aus der Cloud

Für kleinere Unternehmen sind Big-Data-Architekturen häufig zu teuer. Mittlerweile stehen aber in der Cloud eine Vielzahl von Verarbeitungsmethoden und Plattformen zur Verfügung. So muß ein Unternehmen nicht in eine eigene Big Data-Architekur investieren, sondern kann über eine gemietete Plattform seine Daten analysieren und mit Hilfe von Big Data Geld verdienen.
 
Für die Angebote existieren klar definierte Servicemodelle. Mit dem Infrastruktur-Servicemodell (IaaS) mietet der Kunde eines Cloud-Anbieters die Hardware für die Datensicherung. Analysiert werden die Daten mithilfe existierender Standardsoftware, die der Anbieter ebenfalls über die Cloud bereitstellt. So bietet z. B. die Deutsche Telekom eine Lösung auf Basis der Software von SAP-HANA an und nennt den Dienst Dynamic Services for SAP HANA. Andere Anbieter sind beispielsweise IBM und Microsoft.


Big Data – heute unverzichtbar

Vor noch nicht allzu langer Zeit befürchteten Analysten, dass Big Data nur ein kurzer Hype sei, der sich schnell überleben werde. Doch weit gefehlt: Big Data ist seit 2015 in Deutschland akzeptiert und gilt zunehmend als unverzichtbarer Bestandteil einer Unternehmensstrategie. Bei vielen Unternehmen steht Big Data ganz oben auf der Agenda, so eine Studie des Digitalverbands Bitkom von 2018. Denn ohne Big Data verliere eine Firma ihre Wettbewerbsfähigkeit.
 
Übrigens: Mein Verein hat das nächste Spiel gewonnen. Offenbar hatte die Analyse der Lauf- und Passwege den gewünschten Erfolg. Drei Punkte mehr auf dem Konto dank Big Data – nicht schlecht!
 

Wer mehr wissen will

Zum Thema Big Data bieten wir den Kurs Big Data – Das Business von morgen an, der sich all diejenigen richtet, die Big-Data-Lösungen planen, bewerten oder implementieren möchten. Wer Interesse an Big Data hat und eine gute Einführung sucht, ist in diesem Training richtig.
 
Darauf aufbauend, können Sie im Workshop Big Data Hands-on – Anwendungen in der Praxis echte Big-Data-Erfahrungen sammeln. Sie arbeiten praktisch mit HDFS, Hadoop und Apache Spark.
 
 
 
 
Von Horst Bialas
 

Das könnte Sie auch interessieren

 
Cloudera Training – Kurse rund um Apache Hadoop, die Plattform für Big Data
Data Center, Cloud & SDN – Unsere Kurse zu Big Data und anderen Data Center Themen