Was kosten eigentlich Datenschutzverletzungen? (Teil II)

kosten

Dieser Artikel ist Teil der Reihe „Was kosten eigentlich Datenschutzverletzungen?“. Sehen Sie sich den Rest an:

Wenn ich den ersten Beitrag in dieser Serie in einem Satz zusammenfassen müsste, dann so: Als einzelne Zahl ist der Durchschnitt nicht der beste Weg, um einen Datensatz zu verstehen. Dies gilt auch für die Kosten von Datenschutzverletzungen. Und wenn dieser Datensatz noch dazu schief ist, ist der Durchschnitt noch weniger aussagekräftig.

Vor diesem Hintergrund ist es leichter zu verstehen, worum es bei der Kontroverse über die Kosten einer Datenschutzverletzung geht, die sich in der Wirtschaftspresse abspielt. Zum Beispiel erläutert dieser Artikel in der Zeitschrift Fortune sehr gut den Unterschied zwischen Ponemons Kosten für Datenschutzverletzungen pro gestohlenem Datensatz und der Statistik von Verizon.

Regression ist besser

Der Autor stellt heraus, dass Ponemon zwei Dinge macht, die zu den überhöhten Kosten pro Datensatz führen. Erstens nehmen Sie indirekte Kosten in ihr Modell auf — mögliche entgangene Geschäftsabschlüsse, Markenschädigung und andere Opportunitätskosten. Ich gehe zwar noch im nächsten Post darauf ein, aber die qualitative Umfragemethode von Ponemon ist nicht unbedingt schlecht, allerdings müssen die Zahlen anders interpretiert werden.

Zweitens sind 201 US-Dollar pro durchschnittlichem Datensatz bei Ponemon kein guter Prädikator und vor allem bei verdrehten Datensätzen keine besonders hilfreiche Zahl.

Laut dem Identity Theft Resource Center (ITRC), welches die Statistiken von Datenschutzverletzungen aufbereitet, sind wir mittlerweile bei mehr als 1.000 Datenschutzverletzungen mit über 171 Millionen gestohlenen Datensätzen angelangt.

Basierend auf Ponemons Berechnungen hat die amerikanische Wirtschaft einen Schaden im Bereich der Datensicherheit in Höhe von 201 x 171 Millionen Dollar oder etwa 34 Milliarden Dollar erlitten. Das ergibt keinen finanziellen Sinn.

Der Durchschnitt von Verizon in Höhe von 0,58 US-Dollar pro Datensatz basiert auf der Überprüfung der von NetDiligence zur Verfügung gestellten Versicherungsdaten. Dieser Durchschnitt ist auch deshalb mangelhaft, weil er das Problem wahrscheinlich unterschätzt – hohe Selbstbehalte und restriktive Deckungspolitiken spielen hier eine Rolle.

Ganz nebenbei hat Verizon eingeräumt, dass diese Zahl weit hergeholt ist. Sie wollten darauf hinweisen, dass Durchschnittswerte generell nicht verlässlich sind (was durchaus als kleine Spitze gegen Ponemon zu verstehen ist).

Im Fortune-Artikel wird dann die log-lineare Regression von Verizon erörtert und daran erinnert, dass die Kosten für die Verletzung nicht linear steigen. In diesem Punkt sind wir uns einig! Der Artikel enthält auch einen Auszug aus der Tabelle von Verizon, aus der hervorgeht, wie unterschiedlich die Kosten pro Datensatz für verschiedene Bereiche sind. Diese Tabelle habe ich im ersten Teil bereits gezeigt und weiter unten werden wir etwas Ähnliches mit Schadenkosten versuchen.

Im letzten Post haben wir die nicht lineare Regression des RAND-Modells behandelt, bei dem neben Datensatzzählungen noch andere Faktoren involviert sind. Jay Jacobs hat auch ein sehr einfaches Modell, das sich besser eignet als eine streng lineare Linie. Verizon-, RAND- und Jacobs Regressionen sind allesamt besser für Kostenprognosen geeignet als lediglich eine einzelne Durchschnittszahl.

Noch ein letzter Punkt: Die Anzahl der betroffenen Datensätze bei einer Datenschutzverletzung lässt sich nur schwer definieren. Die Datenforensik kann oft nicht genau sagen, was gestohlen wurde: waren es 10.000 oder 100.000 Datensätze? Dieser Unterschied kann aus 201 US-Dollar pro Datensatz 20 US-Dollar machen.

Sinnvoller ist es deshalb, die Kosten pro Vorfall zu betrachten. Dieser Durchschnittswert ist, wie ich bereits beim letzten Mal schrieb, etwas konsequenter und liegt ungefähr im Bereich von 6 Millionen US-Dollar, basierend auf verschiedenen Datensätzen.

Die Macht von Power Laws

Lassen Sie uns zum Kern des Problems von Durchschnittswerten zurückkehren. Leider sind die Datensicherheitsstatistiken sehr verzerrt und tatsächlich werden die Verteilungen wahrscheinlich durch Power Laws repräsentiert. Im Microsoft-Paper Sex, Lies and Cyber-Crime Surveys, geht es um diesen Fall, und es behandelt außerdem größere Probleme — Undersampling und Falschmeldungen — von Datensätzen, die auf Power Laws basieren. Kurz gesagt: einige wenige Datenpunkte wirken sich im Durchschnitt unverhältnismäßig stark aus.

Diejenigen unter Ihnen, die Angst vor Mathematik haben und zusammenzucken, wenn sie eine Gleichung sehen oder das Wort „Exponent“ hören, können zum nächsten Kapitel springen, ohne allzu viel zu verpassen.

Werfen wir einen Blick auf die Tabelle aus der RAND-Studie, die ich bereits im ersten Teil gezeigt habe.

kosten

Ein Vorfall von 750 Millionen USD weist darauf hin, dass es sich hierbei um einen merkwürdigen Datensatz handelt.

Beachten Sie, dass die mittleren Kosten für einen Vorfall — siehe Gesamtsumme —250.000 USD betragen, während die durchschnittlichen Kosten von 7,84 Millionen US-Dollar erstaunlicherweise 30 Mal so hoch sind! Und der maximale Wert für diesen Datensatz enthält einen Vorfall von gigantischen 750 Millionen USD.

Wenn die Daten über Power-Law-Kurven geführt werden, dann gibt es diese Giganten, aber sie zeigen sich nicht darin, dass Daten in bekannten Glockenkurven vorliegen.

Ich werde jetzt eine Power-Law-Kurve an die obige Statistik anpassen, oder mindestens an den Durchschnittswert — das reicht für meine Zwecke aus. Wichtiger ist, dass Sie einen Datensatz mit „Fat-Tails“ mit demselben Durchschnittswert haben können!

Power Law hat eine sehr einfach Form: es ist lediglich die Variable x, die in diesem Fall die Kosten eines Vorfalls repräsentiert, die die Basis für einen negativen Exponenten Alpha bildet: x-α.

(Ja, es gibt eine Normalisierungskonstante, aber ich habe sie weggelassen, um es einfacher zu machen.)

Ich habe ein Alpha von etwa -2,15 berechnet, basierend auf den Statistiken aus der obigen Tabelle. Das Alpha ist übrigens der Schlüssel für die gesamte Mathematik, die Sie brauchen.

Was ich jedoch wirklich wissen möchte, ist die Gewichtung oder der Prozentsatz der Gesamtkosten für alle Datenschutzverletzungen, die jedes Segment im Beispiel beiträgt. Ich suche nach einem repräsentativen Durchschnittswert für jeden Vorfall.

Zum Beispiel weiß ich, dass der Medianwert oder 50% der Stichprobe – das sind etwa 460 Vorfälle – Schadenkosten unter 1,8 Millionen Dollar hat. Kann ich die Durchschnittskosten für diese Gruppe berechnen? Es sind sicher keine 7,84 Millionen Dollar!

Hier ist etwas mehr Mathematik erforderlich, und falls Sie interessiert sind, können Sie hier etwas über die Lorenz-Kurve erfahren. Die nachfolgende Grafik vergleicht die ungleiche Verteilung der Gesamtvorfallskosten (die blaue Kurve) für meinen Datensatz mit einer echten gleichmäßigen Verteilung (die rote 45-Grad-Linie).

kosten

Die Lorenz-Kurve: beliebt bei Wirtschaftswissenschaftlern und Datensicherheitsexperten (Die vertikale Achse stellt den Prozentsatz der Gesamtvorfallskosten dar.)

Während Sie über diese Grafik nachdenken — und hier mit ihr herumspielen — werden Sie feststellen, dass sich die blaue Kurve eigentlich nicht so sehr verändert bis etwa 80% oder 0,8.

Der Mittelwert bei 0,5 und darunter repräsentiert 9% der Gesamtkosten einer Datenschutzverletzung. Ausgehend von den Statistiken in der obigen Tabelle liegen die Gesamtkosten für Datenschutzverletzungen aller Vorfälle bei etwa 7,2 Milliarden US-Dollar (7,84 Millionen US-Dollar x 921). Die ersten 50% meines Beispiels stellen somit bloß 648 Millionen US-Dollar dar (7,2 Milliarden US-Dollar x 0,09). Mit etwas mehr Arithmetik finden Sie heraus, dass der Durchschnittswert bei etwa 1,4 Millionen Dollar pro Vorfall für diese Gruppe liegt.

Zusammenfassend zeigt dieses Kapitel, dass der Großteil der Stichprobe keine durchschnittlichen Vorfallskosten von nahezu 7,8 Millionen US-Dollar aufweist! Das impliziert auch, dass an der Spitze gigantische Datenvorfälle die Zahlen in die Höhe treiben.

Kennen Sie schon unseren wöchentlichen Podcast?

Die praktische IOS-Blog-Kostentabelle

Ich möchte diesen Post mit einer einfachen Tabelle (siehe unten) abschließen, bei der die Kosten einer Datenschutzverletzung in drei Gruppen unterteilt sind: nennen wir sie Economy, Economy Plus und Business Class.  Diese Unterteilung bezieht sich auf die ersten 50% der Datenvorfälle, die nächsten 40% und die letzten 10%. Es gleicht dem, was Verizon 2015 mit seinem DBIR (Data Breach Investigation Report) für die Kosten pro Datensatz gemacht hat.

Economy Economy Plus Business Class
Datenvorfälle 460 368 92
Prozent der Gesamtkosten 9% 15% 74%
Gesamtkosten 648 Millionen USD 1 Milliarde USD 5,33 Milliarden USD
Durchschnittliche Kosten 1,4 Millionen USD/Vorfall 2,7 Millionen USD/Vorfall 58 Millionen USD/Vorfall

Wenn Sie es bis hierher geschafft haben, haben Sie wirklich Ausdauer bewiesen.

Im nächsten Beitrag, und ich verspreche es wird der letzte Post in dieser Reihe sein, werde ich etwas über die obige Tabelle erzählen und dann weitere Gedanken über den Wettstreit zwischen Verizon und Ponemon bezüglich der Kosten einer Datenschutzverletzung darlegen.

Etwas rein auf Basis von Zahlen zu erzählen, kann gefährlich sein. Es gibt für „datengesteuerten“ Journalismus Grenzen. Und hier bietet der qualitative Ansatz von Ponemon erheblich Vorteile!