Big Data / KI

Eine unbeherrschbare Datenmenge



Big Data bezeichnet die unüberschaubar große und exponentiell anwachsende Datenmenge im Internet. Mittlerweile ist sie so gewaltig, dass herkömmliche Analysetools nicht ausreichen um sie zu verarbeiten. Nur technologisch ausgefeilte Programme und Werkzeuge können dabei helfen, diese Datenflut effektiv zu analysieren. Täglich werden etwa 2,5 Trillionen Bytes an digitalen Daten generiert (Trillion ist eine 1 mit 18 Nullen). Dies entspricht der Speicherleistung von mindestens 36 Millionen iPads. Schätzungen gehen davon aus, dass dieses Datenmeer sich aller zwei Jahre verdoppelt. Beispielsweise sind neun Zehntel aller digitalen Daten binnen der letzten zwei Jahre entstanden. So wurden im Jahre 1992 etwa 100 GB pro Tag an digitalen Daten produziert. 1997 waren es hingegen schon 100 GB pro Stunde. 2002, also wieder fünf Jahre später, generierte die Menschheit bereits 100 GB pro Sekunde. Bis 2013 stieg die Datenproduktion auf 28.875 GB pro Sekunde an und 2019 überschritt sich 50.000 GB pro Sekunde.

Die Ursachen für diesen enormen Anstieg liegen dabei auf der Hand. Mehr als 50 Prozent der Weltbevölkerung sind inzwischen zu regelmäßigen Nutzern digitaler Geräte geworden, die Quote steigt weiter an. Gleichzeitig dringt die Digitalisierung immer weiter in die Lebensbereiche der Menschen vor, erfasst immer mehr Aspekte ihres alltäglichen Lebens und muss daher auch immer mehr Daten abspeichern. Papierzeitungen, CDs, Videokassetten – all dies ist inzwischen digitalisiert und online erhältlich.

„Dunkle Daten“


Als „Dunkle Daten“ oder „Dark Data“ werden alle Daten bezeichnet, welche zwar von Informationssystemen erfasst und gesichert wurden, jedoch keine Verwendung finden. Besonders bei großen Datenmengen kommt es häufig vor, dass nicht das gesamte Material analysiert und genutzt werden kann. Die Existenz solcher Daten gerät dann schnell in Vergessenheit. So schätzt IBM, dass beinahe 90 Prozent aller durch Sensoren erhobenen Daten niemals genutzt werden. Der Großteil aller Unternehmen gibt an, durchschnittlich etwa 1 Prozent aller Daten auszuwerten. Für die Bearbeitung größere Datenmengen fehlen Kapazitäten und innovative Lösungen. Dies bringt jedoch eine Reihe negativer Folgen hervor. Mehr als die Hälfte aller Unternehmen gehen beispielsweise davon aus, dass ihre Business Intelligence – Systeme suboptimal funktionieren. Beim Content – Management erklärten sogar 65 Prozent, dass hier viele Prozesse zu unkontrolliert ablaufen. Daher liegt es im Interesse vieler Unternehmen, ihre Dark Data auszuwerten und damit bessere Lösungen und Ansätze für unternehmensspezifische Probleme zu formulieren. Werden relevante Daten dagegen erst spät erkannt, führt dies mitunter zu katastrophalen Effekten. Insgesamt ist festzustellen, dass in den bisher ungenutzten Daten riesige Möglichkeiten liegen, deren Reichweite bisher kaum abgeschätzt werden kann. Man kann diese Situation etwa mit der Entdeckung der Welt durch die Schifffahrt in der frühen Neuzeit vergleichen: Vor einem liegt eine Landkarte, die zu großen Teilen weiß, das heißt unerschlossen ist. Was hinter dem Nebel liegt, kann nur vermutet werden. Im Falle von Dark Data gehen führende Experten jedoch von Enormen Entwicklungspotenzialen aus.

Moderne Analysetools und andere technologische Revolutionen


Die Bezeichnung „Große Daten“ selbst ist dem englischen Sprachraum entnommen und beschreibt für Experten sogar zwei Aspekte. Neben der bereits geschilderten Datenflut kann er sich auch auf neu entwickelte und explizit zur Bearbeitung dieser Datenmenge konzipierte IT – Lösungen und Systeme beziehen. Hierbei ist vor allem das „Machine Learning“ relevant, auf das später noch detailliert eingegangen wird. Im Fokus solcher Lösungsansätze stehen vor allem jene Daten, die völlig unstrukturiert sind, sogenannte „dark data“. Dies können zum Beispiel nicht ausgewertete Daten aus sozialen Netzwerken sein, Kundendaten und vieles mehr. Wenn man sich einmal vergegenwärtigt, was in der heutigen Gesellschaft alles digital erfasst und gespeichert wird, kann man das Ausmaß von Big Data zu ahnen beginnen. Eine vielversprechende Möglichkeit, hier Licht ins Datendunkel zu bringen, stellt das sogenannte „Grid Computing“ dar. Dabei handelt es sich um eine Spezialform des verteilten Rechnens, der eine daten – und rechenintensive Verarbeitung leisten kann.

Die technologischen Revolutionen, die mit der rasanten Zunahme digitaler Daten und den Versuchen sie zu analysieren einhergehen, haben auch auf viele andere Technologiebereiche erhebliche Auswirkungen. So wurden durch die modernen digitalen Technologien auch neue Kommunikationsmöglichkeiten entwickelt, bei der mehr als die reine Datenmenge im Fokus steht. Auch die Vermarktung, die Verwertung, die Nutzung, die Sammlung und hauptsächlich die Analyse der digitalen Daten wird immer stärker in den Vordergrund gerückt. So wird bereits vielfach von einer neuen Ära der Kommunikation gesprochen, die ähnlich bedeutsam wie die Erfindung des Buchdruckes durch Johannes Gutenberg ist. Somit zeitigt die Entwicklung auch massive soziale Folgen, die direkt in das alltägliche Leben der Menschen eingreifen. Neben der Kommunikationstechnologie sind auch in den Bereichen Medizin, Industrie 4.0, Autonomes Fahren, Smart Grids / Energieträger, Robotik und KI wesentliche spill over – Effekte zu erwarten. Eine Entdeckung in der Domäne der Datenanalyse kann also in vielen anderen Sektoren mit Mehrwert implementiert werden und dort gegebenenfalls weitere Innovationen anstoßen.

Verbessert Big Data unseren Alltag?



Wie bei jeder technologischen Neuerung stellt sich auf hier die Frage nach den Chancen und Risiken, den Potenzialen und Gefahren der neuen Entwicklung. Im Falle der Datenrevolution sind zunächst zahlreiche Vorteile erkennbar, die das Alltagsleben vieler Menschen positiv beeinflussen. So konnten etwa im Onlinehandel und – verkauf substanzielle Verbesserungen der Performance erzielt werden. Dank fortschrittlicher Analysetechniken werden die Angebote auf die Kaufwünsche der Kunden zugeschnitten, sodass diese passgenaue Werbeanzeigen zu sehen bekommen. Außerdem können Käufer schnell und einfach ein Feedback geben und so selbst dazu beitragen, die Kaufplattform zu optimieren. Da all dies virtuell erfolgt, können damit hohe Kosteneinsparungen für Personal und Mietfläche erzielt werden. Auch der Bereich Smart Home konnte erst durch das Vorantreiben der Datenanalyse entwickelt werden. Nun kann der gesamte Energieverbrauch des eigenen Heims digital gesteuert werden. Weitere Anwendungsbeispiele sind das Reisen oder der Stadtverkehr. Die Digitalisierung und Analyse von Daten, die dann zu Marketing – und Werbezwecken weiterverwendet werden, greift in jedem Lebensbereich um sich.

Machine Learning


Maschinelles Lernen bedeutet, dass Wissen künstlich aus Erfahrung generiert wird. So lernen Systeme aus Beispielen, indem sie ihre Erkenntnisse nach Abschluss der Testphase verallgemeinern können. Ein aktuelles Beispiel dafür ist der Super – Schachcomputer „Alpha Zero“ von Google, welcher sich selbst Schach beibrachte, indem er gegen sich selbst spielte. In unglaublich kurzer Zeit wurde dieser Computer nicht nur besser als jeder lebende oder tote Schachgroßmeister, sondern er besiegte auch die besten der herkömmlichen Schachcomputer mit unwahrscheinlich hohen Gewinnraten. Dies konnte er erreichen, indem er nicht einfach nur Schachpositionen auswendig lernte und abspeicherte, sondern indem er aus den Spielen gegen sich selbst Schlussfolgerungen traf und diese auf neue Spiele anwendete. Maschinelles Lernen ermöglicht es künstlichen Systemen also, Gesetzmäßigkeiten und Muster aus dem Lernstoff zu extrapolieren und anhand dieser Erkenntnisse auch unbekannte Daten zu beurteilen. Wichtige Anwendungsfelder für diese Technologie sind autonome Systeme, die Sprach – und Texterkennung, die Aufdeckung von Kreditkartenbetrügen, automatisierte Diagnosetechniken sowie Aktienmarktanalysen.

Die Vorteile des maschinellen Lernens sind vielfältig. Die Mensch – Maschine – Interaktion gestaltet sich viel flüssiger. Außerdem können zeitraubende und langweilige Aufgaben von Computern erledigt werden, ohne dass Menschen damit ihre Zeit verschwenden müssten. Dies gilt natürlich auch für Problemstellungen, die das Fassungsvermögen eines menschlichen Gehirns übersteigen, etwa der Erkennen von Fehlermustern oder potenzielle Störfälle in der Fertigung (Stichwort predictive maintenance). Im Medizinsektor können selbstlernende Programme mittlerweile Krebstumore erkennen und Therapieempfehlungen formulieren. Teilweise übertreffen sie darin bereits jetzt menschliche Ärzte. Allgemein ist die Datenverarbeitungskapazität von Computern deutlich höher als die von Menschen. Wenn die Rechenmaschinen sich nun selbst beibringen können, diese Überlegenheit für den Menschen zu nutzen, liegen die Anwendungsfelder auf der Hand.