Rage Against the Machine Data

von Rob Sobers

Im Big-Data-Land scheint sich in letzter Zeit alles um computergenerierte Daten zu drehen. Denn eine Flut von maschinell erstellten Daten wird ständig in Protokolldateien und Datenbanken gespült: Protokolle für den Webdatenverkehr, Anwendungsereignisse und das Betriebssystem, Callcenter-Daten, GPS-Koordinaten, Sensorinformationen und vieles mehr.

Computergenerierte Daten sind zweifellos wertvoll – doch wie sieht es mit nutzergenerierten Daten aus?

Wie wäre es mit einem Gedankenexperiment – was hätten Sie lieber:

1.) Daten zu jedem einzelnen Besuch auf twitter.com mit IP-Adresse, Datum, Zeit, Referrer usw. oder 2.) die Inhalte jedes einzelnen Tweets, der je von einem Twitter-Nutzer geschrieben wurde.

Laut meiner letzten Überprüfung ist die Nachfrage nach den Apache-Protokollen von Twitter nicht sehr groß, doch das Unternehmen macht riesige Gewinne mit dem Verkauf der gesamten Tweets an Google, Microsoft & Co.

Im Gegensatz zu dem Meer von nutzergenerierten Daten im Internet, deren Wert größtenteils relativ gering ist (sehen Sie sich einfach ein x-beliebiges Video auf YouTube an), weisen die nutzergenerierten Daten innerhalb Ihrer Organisation per Definition eine sehr hohe Wertdichte auf.

Dazu gehören E-Mails, Word-Dokumente, Tabellenkalkulationen, Präsentationen, Audio- und Videodateien. Diese Daten belegen den Großteil der digitalen Speicherkapazitäten und werden in der Regel lange Zeit aufbewahrt. Darüber hinaus sind ihnen enorme Mengen von Metadaten zugeordnet.

Doch warum bewahren wir sie so lange auf? Ein Grund dafür ist, dass deren Erstellung relativ aufwändig ist. Einige Inhalte werden von einer Person, viele jedoch von ganzen Teams erstellt, welche die Daten mehrmals überarbeiten, bis sie mit weiteren Nutzern ausgetauscht werden können. Meistens behalten wir die erstellten Inhalte jedoch einfach, weil sie wichtig sind. Sie können alle Arten von Informationen enthalten – unsere Gedanken, Ideen, Pläne, medizinische oder Finanzinformationen.

Nutzergenerierte Inhalte sind umfangreich – Metadaten allerdings noch umfangreicher. Interessante Metadaten einer Datei sind beispielsweise Autor, Dateityp (Tabellenkalkulation, Präsentation usw.), Speicherort, Berechtigungen sowie Nutzer, die auf das Dokument zugegriffen oder es per E-Mail verschickt haben. Über ihre gesamte Lebensdauer hinweg wird eine Datei von vielen Nutzern geöffnet, kopiert, versendet und an viele unterschiedliche Speicherorte in zahlreichen Dateisystemen verschoben. Dadurch wachsen die Metadaten so stark an, dass sie im Rohzustand über kurz oder lang mehr Speicherplatz belegen als die Datei selbst.

Genauso wie die Analyse computergenerierter Daten praktische Einsatzmöglichkeiten für Unternehmen bietet, birgt auch die Analyse von „Big Metadata“ von nutzergenerierten Inhalten ein enormes Potenzial. Ohnehin ist die Nutzung von Metadaten für das Verwalten und Schützen von nutzergenerierten Inhalten sowie die effektive Kollaboration mittlerweile von zentraler Bedeutung. Unternehmen, die diese Technologien nicht implementiert haben, berichten, dass sie nicht sicher sind, ob ihre Daten geschützt sind^[1]. Sie wissen nicht, wo in ihren Netzwerken sich kritische Informationen befinden oder wer die jeweiligen Data Owner sind. Außerdem sind sie nicht mehr in der Lage, grundlegende Datenschutzaktivitäten auszuführen.

Nutzergenerierte Big Data sind für viele Organisationen absolutes Neuland mit bisher ungenutztem Potenzial. Da wir nun über die erforderlichen Technologien verfügen, um dem Herzschlag unserer Organisation zu lauschen, wäre es nachlässig, dies nicht zu tun. Denn damit lassen sich einige grundlegende Fragen beantworten wie:

Wer erstellt die meisten Inhalte?
Wer greift auf die meisten Daten zu?
Wo sind sensible Daten gespeichert?
Welche Server werden nicht verwendet?
Gibt es ungewöhnliche Vorgänge im Netzwerk?

Und dies ist nur die Spitze des Eisbergs. Sobald Sie anfangen, Datenströme zu kombinieren, können Sie noch viel einzigartigere, revolutionäre Erkenntnisse gewinnen.

Ob Sie nun mit einer Allround-Big-Data-Lösung oder einem vertikalen Full-Stack-Produkt beginnen – das Entscheidende ist, jetzt Daten zu sammeln, denn Sie wissen nie, wann Sie sie brauchen werden.

[1] Die Ergebnisse der Studie zur aktuellen Datenschutzlage (in englischer Sprache) stehen unter http://hub.varonis.com/data-protection-survey-results/ zum Download bereit.

The post Rage Against the Machine Data appeared first on Varonis Deutsch.

What you should do now

Below are three ways we can help you begin your journey to reducing data risk at your company:

Schedule a demo session with us, where we can show you around, answer your questions, and help you see if Varonis is right for you.
Download our free report and learn the risks associated with SaaS data exposure.
Share this blog post with someone you know who'd enjoy reading it. Share it with them via email, LinkedIn, Reddit, or Facebook.

Michael Buckbee

Michael hat als Systemadministrator und Softwareentwickler für Startups im Silicon Valley, die US Navy und alles dazwischen gearbeitet.