logo-agentur-gerhard-g-whitelogo-agentur-gerhard-glogo-agentur-gerhard-whitelogo-agentur-gerhard

Data Science – ein smarter Einstieg in das Zeitgeist-Thema

,

Ein Begriff zwischen Buzzword und Wunderwaffe: „Data Science“

„Data Science“ ist ein Begriff, der sich jeder einfachen Definition entzieht.

Deshalb ist es schwierig, den Begriff akkurat zu benutzen.

Viele Publikationen benutzen Data Science relativ frei, d.h. ohne Definition, als wäre die Bedeutung selbsterklärend.

Andere Autoren wiederum versuchen, den Begriff möglichst so einzugrenzen, dass er zwar semantisch handhabbar wird, aber leider zu kurz greift.

via GIPHY

Historisch gesehen ist es so, dass sich die Bedeutung von Data Science sehr stark gewandelt hat.

Vor 25 Jahren bezog sich Data Science noch hauptsächlich auf das Sammeln, Bereinigen und die statistische Auswertung von Daten.

In den letzten Jahren hingegen sind Begriffe wie Predictive Analytics, Data Mining, Business Intelligence, maschinelles Lernen, Deep Learning etc. pp. in die Nähe von Data Science gerückt. Vor allem auch im Rahmen der digitalen Transformation von Unternehmen fällt der Begriff gefühlt in jedem zweiten Satz (zusammen mit Bot, AI oder Geschäftsmodell).

Auch ist das Interesse am Themen rund um Daten und deren Auswertung in den letzten Jahren massiv gestiegen. Hier als Beispiel die Entwicklung der Suchanfragen zum Thema in den letzten 5 Jahren:

Dieser Blogbeitrag über das Thema „Data Science“ bietet einen leichten Einstieg in das Thema an. Die Motivation und das Interesse sollen nicht schon am Anfang von der Vielfalt des Themas erschlagen werden. Getreu dem Motto: Smart Data statt Big Data.

Die Sache mit den Daten

Big Data sind nicht einfach viele Daten

Big Data unterscheiden sich wesentlich von traditionellen Daten.

Zum einen handelt es sich um sehr große Mengen an Daten. Zum anderen können die Daten in vielen unterschiedlichen Formaten verfügbar sein.

Diese massiven Datenmengen können entweder strukturiert, teilweise strukturiert oder völlig unstrukturiert sein.

Big Data können durch folgende Eigenschaften charakterisiert werden: Vielfalt (Zahlen, Text, Bilder, Audio-Elemente, Geschwindigkeit (Daten werden in Echtzeit generiert und verarbeitet) und Umfang/Menge (Tera-, Peta oder Exa-Bytes).

Wo/wie werden Daten generiert?

Traditionelle Daten können zum Beispiel Daten aus einer Kundendatenbank sein oder historische Kursverläufe von Aktien.

Kundendaten können sein: eine Kundennummer, Anzahl an Beschwerden, durchschnittlicher Warenkorb, Adresse usw.

Kursverläufe von Aktien sind angereichert mit einem Datum, der Wertpapierkennnummer bzw. dem Namen der Aktie und dem genauen Preis zu einem bestimmten Zeitpunkt.

Eine große Menge an diesen Daten hat nichts mit Big Data zu tun, kann aber durchaus wertvolle und entscheidende Insights generieren, wenn sie entsprechend ausgewertet wird!

Big Data haben andere Quellen und Eigenschaften: Immer mehr Unternehmen generieren mit neuen Geschäftsmodellen (z.B. Plattformen) Unmengen an Daten. Nicht zu letzt haben es Google, Facebook oder Amazon geschafft, mit Geschäftsmodellen, die auf Big Data basieren, zu den wertvollsten Marken der Welt zu gehören.

Aber auch Daten aus Sensoren (Autos, Küchengeräte, Industrieanlagen…) und natürlich die sogenannten Wearables generieren Tag für Tag unglaubliche Mengen an Daten.

Wohin damit?

Wer jongliert mit diesen Daten?

Einer dieser Personen ist Ralf Rattay, den wir im Blog schon einmal interviewt haben. Damals habe ich Ralf als „Datenjongleur“ beschrieben. Warum?

Die Datenspezialisten, die sich mit Rohdaten und deren Verarbeitung beschäftigen, sind andere als diejenigen, die sich mit dem Erstellen der Datenbanken beschäftigen oder mit der kreativen Auswertung der Daten.

Datenarchitekten und Dateningenieure

Datenarchitekten und Dateningenieure bilden das Fundament im Geschäft mit Big Data.

Ein Datenarchitekt baut etwa die Datenbank, d.h. er bestimmt, wie die Daten empfangen, verarbeitet und wieder ausgegeben werden.

Dateningenieure setzen hier an und widmen sich der Verarbeitung der Daten. Sie garantieren die Datenqualität, bevor die Daten zu den Analysten weitergereicht werden.

Der Datenbank-Admin

Der Datenbankadministrator kontrolliert, dass die richtigen Daten in die Datenbank fließen bzw. auch wieder verlassen.

Im Rahmen von Big Data ist dieser Prozess größtenteils automatisiert, d.h. hier ist der Datenbank-Admin durch z.B. eine Software ersetzt.

Data Scientists erklären die Welt

Durch Big Data bekommt Business Intelligence neuen Drive. Plötzlich sind Insights möglich, die durch herkömmliche Daten nicht generiert hätten werden können.

Doch wie birgt man diesen Schatz für Unternehmen? Welche Perspektiven kann man auf Daten werfen?

Grundsätzlich existieren zwei Betrachtungsweisen: Dinge zu erklären, die bereits passiert sind, und zwar aus einem bestehenden Datenpool. Oder Sachverhalte vorauszusagen – aus Daten, die bereits generiert wurden.

Bevor Data Science in die prädiktive Analytik einsteigt, müssen Muster analysiert werden, die die Vergangenheit liefert. Sie bereiten den Weg für Vorhersagen in die Zukunft.

Business Intelligence konzentriert sich im Bereich Big Data genau darauf.

Daten erklären die Vergangenheit

Obwohl Business Intelligence (BI) „Data Science“ nicht im Namen trägt, ist der Zusammenhang beider Disziplinen unübersehbar.

BI kümmert sich in einer einfachen Ausprägung in erster Linie um Fragenkategorien wie:

  • Wie viele Einheiten wurden verkauft?
  • In welchen Regionen war der Absatz besonders stark oder schwach?
  • Welche Waren wurden genau verkauft?
  • Wie hat das E-Mail-Marketing im letzten Quartal performt? Was war die CTR? Welche Umsätze wurden durch die Maßnahme generiert?

Die retrospektive Betrachtung von Daten kann wertvolle Informationen liefern. Die Übersetzung der Erkenntnisse und Handlungsempfehlungen in die Zukunft findet jedoch verzögert statt.

In welchen Feldern kann BI eingesetzt werden?

  • Preisstrategie, z.B. Optimierung von Preisen
  • Optimierung von Geschäftsprozessen, z.B. Inventarmanagement
  • Marketing-Performance, z.B. in Form von Reportings zur Effektivitätssteigerung
  • Website Analytics

Welche Eigenschaften sollte ein Business Analyst mit Schnittstelle zur Datenanalyse mitbringen?

In erster Linie ist ein Business Analyst ein Geschichtenerzähler, denn er steht vor der Herausforderungen, aus einer Vielzahl an Daten genau diejenigen zu filtern und in einen sinnvollen Zusammenhang zu bringen, die wertvolle Erkenntnisse liefern.

Und genau diese Erkenntnisse müssen gut verkauft werden, damit sie auch die Beachtung finden, die sie verdient haben. Keine einfache Angelegenheit, weder in großen Konzernen noch in kleinen agilen Unternehmensformen.

Ein Manager braucht die Erkenntnisse anders verpackt als ein Performance Marketer. Andere Kontexte erfordern unterschiedliche Aufbereitungsformate und auch andere Geschichten.

Daten erklären die Zukunft

Prädiktive Analytik basiert auf explorativer Datenanalyse.

Was bedeutet das?

In Grunde geht es darum, dass man nicht mit Hypothesen an eine Datenauswertung herantritt, sondern erst Hypothesen aus den Daten ableitet und diese dann testet. Der Data Scientist hört quasi den Daten zu, bevor er aus bestehenden Mustern Hypothesen ableitet.

Diese Vorgehensweise erfordert auch andere Auswertungsmethoden. So setzt traditionelle Data Science eher auf klassische statistische Methoden (Beispiele):

  • Regressionsanalyse
  • Lineare Regression
  • Clusteranalyse
  • Faktorenanalyse
  • Zeitreihenanalyse

Prädiktive Analytik hingegen arbeitet mit Methoden, die mit Echtzeitdaten dynamisch und intelligent umgehen können wie z.B. Machine Learning.

Machine Learning ist momentan ein sehr populärer Ansatz in Data Science.

Der Hauptvorteil von Machine Learning gegenüber traditionellen Auswertungsmethoden: Der Kern ist ein Algorithmus.

Das ermöglicht einem Computer oder einer AI schnell ein passendes Modell zu den Daten zu finden, und zwar aus den Daten heraus. Der Unterschied zwischen maschinellem Lernen und traditionellen Methoden ist also, dass sich ein selbstlernender Prozess aus den Daten heraus generiert.

Der Vorteil: Es können Lösungen entwickelt werden, die vorher aus Daten heraus so nicht ersichtlich gewesen wären.

Die Gefahr dabei: Die Lernalgorithmen sind so kompliziert, dass Menschen oft nicht mehr wirklich verstehen, was „innen“ passiert.

Den Black Box Effekt minimieren!

Vertrauen ist gut, aber ab und zu Kontrolle auch. Wir sind der Gegenpart zu Ihrer AI.

Black Box Machine Learning?

Ein Algorithmus für Machine Learning basiert auf dem Prinzip: Versuch und Irrtum.

Um eine gewisse Qualität in der Auswertung zu erhalten, benötigt der Algorithmus jedoch viele Daten. Hunderttausende von Fehlversuchen müssen mit abnehmender Fehlerhäufigkeit durchlaufen werden.

Es gibt drei Hauptarten des maschinellen Lernens: überwachtes, unbeaufsichtigtes und bestärkendes Lernen.

Überwachtes Lernen

Das überwachte Lernen beruht auf der Verwendung von strukturierten Daten (z.B. durch eine vorhandene Benennung).

Stellen Sie sich Big Data vor, das aus Videodateien besteht und Bilder, gekennzeichnet als „Katzen“, „Hunde“ und „andere“.

Der Algorithmus erhält Daten, die mit einer Antwort verknüpft sind. Nun kann er sich selbst testen: Ist das ein Hund? Ja/Nein. In der Regel vollzieht das die „Maschine“ auf Hunderten von Datenpunkten auf einmal.

Methoden, die vom Algorithmus eingesetzt werden können:

  • Support Vector Machine
  • Künstliche Neuronale Netzwerke (Deep Learning)
  • Random Forest
  • Bayessches Netz

Unüberwachtes Lernen

Unter bestimmten Umständen müssen Daten ausgewertet werden, die relativ unstrukturiert sein können.

Dann steht der Algorithmus vor der Herausforderung, daraus Insights zu generieren. Aber auch das ist machbar. Oft entstehen dann sogenannte Daten-Cluster.

Der Vorteil: Unbeaufsichtigtes Lernen ist äußerst effektiv für das Entdecken von Mustern in Daten, insbesondere von Dingen, die Data Scientists mit traditionellen Analysetechniken nicht entdecken würden.

Bestärkendes Lernen

Dieses Prinzip folgt dem Konzept „Zuckerbrot und Peitsche“.

Die Modelle des bestärkenden Lernens versuchen, das Lernverhalten in der Natur nachzubilden.

Beispiel: Denken Sie an einen Welpen, der Befehle lernt. Befolgt das Tier den Befehl, gibt es eine Belohnung. Befolgt es den Befehl nicht, erfolgt keine Belohnung (oder sogar eine Bestrafung).

In Abgrenzung zu den beiden anderen Methoden werden beim Reinforcement Learning vorab keine Daten benötigt, d.h. der Algorithmus kann mit den Daten „mitwachsen“.

Data Science: Ein Ozean voller (Daten-)Möglichkeiten

Data Science hat das Potenzial, viele Unternehmensbereiche voranzubringen. Auch Politik, Verwaltung oder NGOs können vom Einsatz neuer Auswertungstechniken v.a. in Bezug auf Big Data profitieren.

Doch das Potenzial, sich zu verzetteln, Insellösungen aufzubauen etc. ist ebenfalls sehr groß.

Zukünftig werden Data Scientists auch strategische Fragen bezüglich des Einsatzes von Data Science als BI Lösung beantworten müssen.

Photo by Tianyi Ma on Unsplash
Photo by Franki Chamaki on Unsplash
Photo by frank mckenna on Unsplash

Quellen: 365datascience.com, realpython.com, andreaskretz.com, player.fm

Reinhardt Neuhold
Manchmal Speaker, meistens Zuhörer. Gründer, Gesellschafter und Geschäftsführer von Agentur Gerhard.
Kommentieren
Wir freuen uns auf Ihre Anfrage.
Danke für Ihre Nachricht. Wir melden uns umgehend bei Ihnen.
AGENTUR GERHARD
Am Treptower Park 28-30
12435 Berlin
+49 (0)30 6098 3961 0+49 (0)30 6098 3961 0
Me
Zur
ück
Kon
takt