Big Data – Was ist es und wie werden große Datenmengen analysiert?

Heutzutage ist es im Zusammenhang mit maschinellem Lernen sehr wichtig, große Datenmengen zu nutzen. Ein Beispiel hierfür ist unser AI Textgenerator, für den hunderttausende Texte genutzt wurden während des Trainings. Doch fangen wir erstmal von vorne an und klären grundlegende Fragen.

Was ist Big Data?

Big Data ist eine Kombination aus strukturierten, halbstrukturierten und unstrukturierten Daten, die von Unternehmen gesammelt werden und die in Projekten für maschinelles Lernen, prädiktive Modellierung und andere fortschrittliche Analyseanwendungen genutzt werden können, um neue Erkenntnisse zu gewinnen.

Systeme, die Big Data verarbeiten und speichern, sind mittlerweile ein gängiger Bestandteil der Datenmanagement-Architekturen in Unternehmen.

Big Data wird oft durch 3 Dinge charakterisiert: die schiere Menge an Daten in verschiedenen Umgebungen, die große Vielfalt an Datentypen, die in Big-Data-Systemen gespeichert werden, und die Geschwindigkeit, mit der Daten erzeugt, gesammelt und verarbeitet werden.

Obwohl Big Data nicht einem bestimmten Datenvolumen entspricht, umfassen Big Data-Implementierungen oft Terabytes (TB), Petabytes (PB) und sogar Exabytes (EB) an Daten, die im Laufe der Zeit gesammelt werden.

Die Wichtigkeit von Big Data

was ist big dataUnternehmen nutzen die in ihren Systemen gesammelten Big Data, um Abläufe zu rationalisieren, einen besseren Kundenservice zu bieten, personalisierte Marketingkampagnen auf Basis spezifischer Kundenpräferenzen zu erstellen und letztlich die Rentabilität zu steigern. Unternehmen, die Big Data nutzen, haben einen potenziellen Wettbewerbsvorteil gegenüber denen, die dies nicht tun, da sie schnellere und besser informierte Geschäftsentscheidungen treffen können, sofern sie die Daten effektiv nutzen.

Big Data kann Unternehmen beispielsweise wertvolle Informationen über ihre Kunden liefern, die zur Verfeinerung von Marketingkampagnen und -techniken, zur Erhöhung der Kundenbindung und zur Steigerung der Konversionsraten genutzt werden können.

Darüber hinaus ermöglicht der Einsatz von Big Data den Unternehmen eine zunehmende Kundenzentrierung. Echtzeit- und historische Daten können genutzt werden, um die sich entwickelnden Verbraucherpräferenzen zu bewerten. So können Unternehmen ihre Marketingstrategien aktualisieren und verbessern und besser auf die Wünsche und Bedürfnisse der Kunden eingehen.

Im Energiesektor helfen Big Data den Öl- und Gasunternehmen dabei, potenzielle Bohrstellen zu identifizieren und die Leistung von Pipelines zu überwachen; in ähnlicher Weise nutzen Versorgungsunternehmen sie zur Überwachung von Stromnetzen. Finanzdienstleister nutzen Big-Data-Systeme für das Risikomanagement und die Analyse von Marktdaten in Echtzeit.

Big Data Analytics – Wie kann man die Informationen nutzen?

Big Data stammt aus einer Vielzahl von Quellen, darunter Unternehmenstransaktionssysteme, Kundendatenbanken, medizinische Aufzeichnungen, Online-Klickprotokolle, mobile Anwendungen, soziale Netzwerke, Forschungsrepositorien, maschinengenerierte Daten und Echtzeit-Datensensoren verwendet werden. Diese Daten können in Big-Data-Systemen in ihrer Rohform belassen oder mit Data-Mining-Tools oder Datenaufbereitungssoftware vorverarbeitet werden, um sie für bestimmte analytische Anwendungen vorzubereiten.

Am Beispiel von Kundendaten lassen sich die verschiedenen Analyse Zweige, die mit den in Big-Data-Sätzen gefundenen Informationen durchgeführt werden können, wie folgt darstellen:

  • Benchmarking. Dazu gehören die Untersuchung von Metriken zum Nutzerverhalten und die Beobachtung des Kundenengagements in Echtzeit, um die Produkte, Dienstleistungen und die Markenautorität eines Unternehmens mit denen der Konkurrenz zu vergleichen.
  • Data Mining in sozialen Medien. Dies sind Informationen darüber, was Menschen in sozialen Medien über ein bestimmtes Unternehmen oder Produkt sagen, die über das hinausgehen, was eine Umfrage oder ein Poll liefern kann. Diese Daten können verwendet werden, um die Zielgruppe für Marketing-Kampagnen zu identifizieren, indem die Aktivitäten zu bestimmten Themen aus verschiedenen Quellen betrachtet werden.
  • Marketing Analytics. Dazu gehören Informationen, die genutzt werden können, um neue Produkte, Dienstleistungen und Initiativen auf informiertere und innovativere Weise zu fördern.
  • Kundenzufriedenheit und Stimmungsanalyse. Alle gesammelten Informationen können Aufschluss darüber geben, wie Kunden über ein Unternehmen oder eine Marke denken, ob es möglicherweise Probleme gibt, wie die Markentreue aufrechterhalten werden kann und wie der Kundenservice verbessert werden kann.

Merkmale von Big Data

Big Data ist eine Sammlung von Daten aus einer Vielzahl von Quellen, von wohldefiniert bis lose definiert, aus menschlichen oder automatisierten Quellen.

Big Data umfasst auch eine breite Palette von Datentypen, darunter die folgenden:

  • strukturierte Daten in Datenbanken und Data Warehouses auf Basis der strukturierten Abfragesprache (SQL).
  • unstrukturierte Daten, wie Textdateien und Dokumente, die in Hadoop-Clustern oder NoSQL-Datenbanksystemen gespeichert sind.
  • Halbstrukturierte Daten, wie z. B. Webserver-Protokolle oder Sensorstromdaten.

Alle diese Datentypen können zusammen in einem Data Lake gespeichert werden, der typischerweise auf Hadoop oder einem Cloud-Objektspeicherdienst basiert. Hinzu kommt, dass Big-Data-Anwendungen oft mehrere Datenquellen enthalten, die sonst nicht integriert werden könnten. Ein Big-Data-Analyseprojekt könnte beispielsweise versuchen, den Erfolg eines Produkts und seine zukünftigen Verkäufe zu messen, indem vergangene Verkaufsdaten, Retourendaten und Online-Bewertungsdaten für dieses Produkt korreliert werden.

Die Geschwindigkeit bezieht sich darauf, wie schnell Big Data generiert wird und wie schnell sie verarbeitet und analysiert werden müssen. In vielen Fällen werden Big-Data-Sammlungen in Echtzeit oder nahezu in Echtzeit aktualisiert, im Gegensatz zu den täglichen, wöchentlichen oder monatlichen Aktualisierungen, die viele traditionelle Data Warehouses durchführen. Big-Data-Analyseanwendungen extrahieren, korrelieren und analysieren eingehende Daten und liefern dann Antworten oder Ergebnisse auf der Grundlage einer allgemeinen Abfrage.

Das bedeutet, dass Data Scientists und andere Datenanalysten die verfügbaren Daten im Detail verstehen und wissen müssen, nach welchen Antworten sie suchen, um sicherzustellen, dass die Informationen, die sie erhalten, gültig und aktuell sind.

networked Data – vernetzte Datensätze für mehrere Unternehmer

Networked Data ist ebenso immer wichtiger. Viele kleine Unternehmen können es sich oft nicht leisten große Datenmengen zu erheben und möchten allerdings auch nicht von großen Anbietern abhängig sein (wie z.B. Google). Vernetzte Daten können oft von mehreren Unternehmen genutzt werden, die ein ähnliches Zielpublikum haben. So können auch unterschiedliche Datenquellen genutzt werden, von denen alle teilnehmenden Unternehmer profitieren können.

 

schlechte Datensätze

Unzuverlässige Rohdaten, die aus verschiedenen Quellen – wie Social-Media-Plattformen und Websites – gesammelt werden, können schwerwiegende Datenqualitätsprobleme verursachen, die nur schwer zu erkennen sind. Ein Unternehmen, das Datensätze aus Hunderten von Quellen sammelt, kann beispielsweise ungenaue Daten identifizieren, aber seine Analysten benötigen Informationen über die Herkunft der Daten, um zu wissen, wo sie gespeichert sind, damit sie Probleme korrigieren können.

Schlechte Daten führen zu ungenauen Analysen und können den Wert von Business Analytics untergraben, da sie bei Führungskräften Misstrauen gegenüber den Daten insgesamt auslösen können.

Die Menge an unzuverlässigen Daten in einer Organisation muss angegangen werden, bevor sie in Big-Data-Analyseanwendungen verwendet werden kann. IT- und Analyseteams müssen außerdem sicherstellen, dass sie über genügend genaue Daten verfügen, um die richtigen Ergebnisse zu erhalten.

Einige Datenwissenschaftler fügen der Liste der Big-Data-Funktionen ebenfalls einen Mehrwert hinzu. Es haben nicht alle gesammelten Daten einen echten geschäftlichen Wert, und die Verwendung ungenauer Daten kann die von Analyseanwendungen gelieferten Erkenntnisse untergraben. Es ist wichtig, dass Unternehmen Praktiken wie die Datenbereinigung befolgen und bestätigen, dass die Daten relevante Geschäftsfragen betreffen, bevor sie in einem Big-Data-Analyseprojekt verwendet werden.

Volatilität trifft auch oft auf große Datensätze zu, die weniger konsistent sind als herkömmliche Transaktionsdaten und je nach Datenquelle mehrere Bedeutungen haben oder unterschiedlich formatiert sein können, Faktoren, die die Datenverarbeitung und -analyse weiter erschweren. Manche ordnen Big Data noch mehr Vs zu; Datenwissenschaftler und Berater haben mehrere Listen mit sieben bis zehn Vs erstellt.

Speicherung von großen Datenmengen

Die Notwendigkeit, große Datenmengen schnell zu verarbeiten, stellt besondere Anforderungen an die Recheninfrastruktur. Die Rechenleistung, die für die schnelle Verarbeitung riesiger Datenmengen und -arten erforderlich ist, kann einen einzelnen Server oder einen Server-Cluster überfordern. Unternehmen müssen für Big-Data-Aufgaben eine angemessene Rechenleistung einsetzen, um die erforderliche Geschwindigkeit zu erreichen. Dies kann potenziell Hunderte oder Tausende von Servern erfordern, die Verarbeitungsaufgaben verteilen und in einer Cluster-Architektur zusammenarbeiten können.

Diese Geschwindigkeit kostengünstig zu erreichen, ist ebenfalls eine Herausforderung.

Viele Führungskräfte in Unternehmen zögern, in umfangreiche Server- und Speicherinfrastrukturen zu investieren, um Big-Data-Workloads zu unterstützen, insbesondere solche, die nicht 24 Stunden am Tag laufen. Infolgedessen ist die öffentliche Cloud jetzt das primäre Werkzeug für das Hosting von Big-Data-Systemen. Ein Public-Cloud-Anbieter kann Petabytes an Daten speichern und die erforderliche Anzahl an Servern skalieren, die groß genug ist, um ein Big-Data-Analyseprojekt durchzuführen. Das Unternehmen zahlt nur für den tatsächlich genutzten Speicherplatz und die Rechenzeit, und die Cloud-Instanzen können abgeschaltet werden, bis sie wieder benötigt werden. Um die Service-Levels weiter zu verbessern, bieten Public-Cloud-Anbieter Big-Data-Funktionen über Managed Services an.

 

Fazit – große Aufgabe

Neben der Frage der Rechenleistung und der Kosten ist das Design einer Big-Data-Architektur eine weitere häufige Herausforderung für Anwender. Big-Data-Systeme müssen auf die spezifischen Anforderungen eines Unternehmens zugeschnitten werden – ein „Do-it-yourself“-Ansatz, bei dem IT-Teams und Anwendungsentwickler ein Toolkit aus allen verfügbaren Technologien zusammenstellen müssen. Die Implementierung und Verwaltung von Big-Data-Systemen erfordert auch neue Fähigkeiten im Vergleich zu denen von Datenbankadministratoren (DBAs) und relationalen, softwarezentrierten Entwicklern.

Beide Probleme können durch die Nutzung eines verwalteten Cloud-Dienstes gemildert werden, aber IT-Manager müssen die Cloud-Nutzung genau im Auge behalten, um sicherzustellen, dass die Kosten nicht außer Kontrolle geraten. Darüber hinaus ist die Migration von Datensätzen und Workloads in die Cloud für Unternehmen oft ein komplizierter Prozess.

Daten aus Big-Data-Systemen für Datenwissenschaftler und andere Analysten verfügbar zu machen, ist ebenfalls eine Herausforderung, insbesondere in verteilten Umgebungen, die eine Mischung aus verschiedenen Plattformen und Datenspeichern umfassen. Um Analysten bei der Suche nach den richtigen Daten zu unterstützen, arbeiten IT- und Analystenteams zunehmend an der Erstellung von Datenkatalogen, die Funktionen zur Verwaltung von Metadaten und Datenpfaden enthalten. Datenqualität und Governance müssen ebenfalls Priorität haben, um sicherzustellen, dass Big Data-Sammlungen sauber und konsistent sind und angemessen genutzt werden.

Datenschutz nicht vergessen

Viele Jahre lang hatten Unternehmen nur wenige Einschränkungen bezüglich der Daten, die sie von ihren Kunden sammelten. Mit der zunehmenden Sammlung und Nutzung von Big Data ist jedoch auch die Häufigkeit des Datenmissbrauchs gestiegen. Besorgte Bürger, die Opfer eines falschen Umgangs mit ihren persönlichen Informationen oder von Datenschutzverletzungen geworden sind, fordern eine Regulierung der Transparenz bei der Datenerfassung und des Schutzes von Verbraucherdaten.

Der Aufschrei über Verletzungen des Schutzes personenbezogener Daten veranlasste die Europäische Union dazu, die Allgemeine Datenschutzverordnung (GDPR) zu verabschieden, die im Mai 2018 in Kraft getreten ist; sie schränkt die Arten von Daten ein, die Organisationen sammeln können, und erfordert die ausdrückliche Zustimmung von Einzelpersonen oder die Einhaltung anderer spezifizierter rechtlicher Gründe für die Sammlung personenbezogener Daten. Die GDPR enthält auch eine Bestimmung zum Recht auf Vergessenwerden, die es EU-Bürgern ermöglicht, Unternehmen um die Löschung ihrer Daten zu bitten.

 

Big Data – Was ist es und wie werden große Datenmengen analysiert?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Nach oben scrollen