Was kosten eigentlich Datenschutzverletzungen? (Teil I)

Datenschutzverletzungen

Dieser Artikel ist Teil der Reihe „Was kosten eigentlich Datenschutzverletzungen?“. Sehen Sie sich den Rest an:

Datenschutzverletzungen sind überaus kostspielig. Nein, Moment mal, sind sie doch nicht. Aber mehr als 60 Prozent der Unternehmen gehen nach einer Datenschutzverletzung in Konkurs! Oder etwa nicht? Wie sieht es mit der Rufschädigung eines Unternehmens aus? Dieser Aspekt könnte durchaus übertrieben sein, aber nach Equifax könnte er ebenso gut große Bedeutung haben. Und sind die Kosten eines Kreditkartenbetrugs keine ernste Angelegenheit für Verbraucher? Vielleicht ja nicht! Klingt dieser Post langsam verwirrend?

Als ich mich näher mit der Frage nach den tatsächlichen Kosten einer Datenschutzverletzung auseinandersetzte, kannte ich bereits die große Diskussion Verizon DBIR vs. Ponemon: Gestützt auf Daten von 2014, ermittelte Ponemon Durchschnittskosten von 201 USD je Datensatz, während Verizon 0,58 USD je Datensatz angesetzt hatte. Meiner Rechnung zufolge ist das ein gewaltiger Unterschied. Dieser lässt sich erklären, wenn man tiefer in die Materie eintaucht.

Der Durchschnitt verursacht überdurchschnittliche Probleme

Das erste Problem, das zu berücksichtigen ist, ist der Durchschnitt einer Datenprobe. Tatsächlich hat uns der in diesem Blog bevorzugte Statistiker Kaiser Fung vor einer Weile einen wesentlichen Beitrag zu diesem Punkt geliefert. Bei der Betrachtung eines Datensatzes ist ein einfacher Durchschnitt der Zahlen ausreichend, solange die Verteilung nicht allzu schief ist. Wenn dies aber nicht der Fall ist, führt der Mittelwert zu Inkonsistenzen, wie im folgenden hypothetischen Datensatz aus der Zählung von Datenschutzverletzungen über zwei Jahre hinweg:

Firma Anzahl verletzter Datensätze (2015) Anzahl verletzter Datensätze (2016)
1 100 150
2 200 400
3 150 300
4 225 250
5 75 100
6 1000 1200
7 1500 1000
8 8000 1000
9 300 400
10 175 500
Durchschnitt 1172 530

Für 2015 liegt der Durchschnitt von 1172 bei sieben von zehn Unternehmen um ein Vielfaches daneben! Und wenn wir diesen Durchschnitt mit dem Durchschnitt des Folgejahres in Höhe von 930 vergleichen, könnten wir fälschlicherweise zu dem Schluss kommen, dass die Anzahl der Verstöße rückläufig ist. Warum? Wenn wir diese sieben Unternehmen betrachten, sieht man, dass die Anzahl der Verstöße hier tatsächlich gestiegen ist.

Das führt gewöhnlich zu einer Diskussion darüber, wie Zahlen in einem Datensatz verteilt sind, und dass der Median eine bessere Darstellung bietet als der Durchschnitt – besonders bei schiefen Datensätzen. Kaiser Fung kann das ausgezeichnet erläutern.

Grobe Schätzung von Kosten durch Datenschutzverletzungen

Wie bestimmt nun Ponemon die Kosten einer Datenschutzverletzung? Normalerweise sind diese Informationen nicht leicht zugänglich. In den letzten Jahren tauchten diese Kosten jedoch in den Jahresberichten einiger börsennotierter Unternehmen auf. Bei Privatunternehmen und börsennotierten Unternehmen, die Kosten durch Verstöße nicht in ihrer öffentlichen Finanzberichterstattung preisgeben, muss man bei der Zahlenverarbeitung weit kreativer vorgehen.

Ponemon befragt also die Unternehmen und bittet sie um eine Einstufung der Kosten für übliche Aktivitäten nach Verstößen, einschließlich Rechnungsprüfung und Beratung, Rechtsdienstleistungen sowie Kosten für Identitätsschutz. Anschließend werden die Kosten danach kategorisiert, ob es sich um direkte Kosten handelt (beispielsweise Kreditüberwachung)  oder unschärfere Gemein- oder Opportunitätskosten (Personalmehraufwand oder potenzielle, entgangene Geschäfte). Es stellt sich heraus, dass diese indirekten Kosten rund 40 % der durchschnittlichen Kosten eines durchschnittlichen Verstoßes darstellen, gestützt auf deren Umfrage aus dem Jahr 2015. Diese Kosten bedeuten schon etwas, aber es sind nicht wirklich Buchhaltungskosten. Mehr dazu beim nächsten Mal.

Eine weit bessere Schätzung der direkten Kosten für Verstöße erhält man durch Untersuchung tatsächlicher Ansprüche aus Internet-Versicherungen. Unternehmen wie Advisen und NetDiligence haben diese Daten zur Versicherungsleistung und waren bereit, sie weiterzugeben. Der Markt für Internet-Versicherungen ist zwar noch immer nicht ausgereift und die tatsächlichen Zahlungen nach Selbstbehalten und sonstigem Kleingedruckten bilden nicht die gesamten indirekten Kosten der Datenschutzverletzungen ab. Aber handelt sich dennoch um den ersten Nachweis direkter Kosten.

Experten von RAND haben mit diesen Datensätzen durchschnittliche Kosten durch Datenschutzverletzungen je Vorfall auf rund 6 Millionen USD grob geschätzt. Diese Zahl deckt sich ziemlich genau mit der Schätzung von Ponemon von 6,5 Millionen USD je Vorfall in etwa dem gleichen Zeitraum.[Note to translators: do not translate image contents]

Kostendaten pro Vorfall

Kostendaten pro Vorfall auf Basis von Versicherungsansprüchen. Beachten Sie die Maximalwerte! (Quelle: RAND)

Die meisten Studien, wie eben auch die RAND-Studie, konzentrieren sich dabei auf die Kosten pro Vorfall und nicht pro Datensatz. Irgendwann fing das Verizon DBIR-Team auch an, die Anzahl offenliegender Datensätze geringer zu gewichten, mit der Erkenntnis, dass es schwierig ist, belastbare Zahlen aus ihren eigenen forensischen Daten zu erhalten. Im DBIR-Bericht von 2015, in dem sie ihre provokanten 0,58 USD Kostenanspruch pro offengelegtem Datensatz bekannt gaben, verließen sich die Wissenschaftler zum ersten Mal auf einen Datensatz mit Daten zu Versicherungsansprüchen von NetDiligence. Es ist festzuhalten,  dass die durchschnittliche Kostenquote des DBIR stark von einigen wenigen Unternehmen beeinflusst wird, deren riesige Anzahl an offengelegten Datensätzen (vermutlich in Millionenhöhe) im Nenner und der geringeren Summe an Versicherungsleistungen im Zähler widerspiegelt.

Insofern ist es sinnvoll, mehrere Mittelwerte zu verwenden, die auf die unterschiedlichen Reichweiten der Datenschutzverletzungen zugeschnitten sind. Es wird deutlich, dass es weit besser ist, die Kostendaten nach der Anzahl der Datensätze zu segmentieren. Blickt man auf diese Weise auf die Daten, relativieren sich die weithin kommunizierten Kosten von 0,58 USD recht schnell, sogar mit Verizons Datenmaterial:

Die realen Kosten

Die realen Kosten liegen deutlich von den medienwirksamen 0,58 USD entfernt.

Die Zählung von Datensätzen mit offengelegten Datensätzen liefert einen ersten Einblick für das Verständnis der verursachten Kosten, aber es gibt noch weitere Faktoren: die jeweilige Branche, aus der die Unternehmen stammen, welchen Rechtsvorschriften sie unterliegen, Kreditabsicherungskosten für Verbraucher sowie die Unternehmensgröße. Sehen Sie sich beispielsweise diesen Rechner für Kosten durch Datenschutzverletzungen an, der auf Ponemons eigenen Daten basiert.

Lineares Denken und dessen Grenzen

Man kann nachvollziehen, warum die durchschnittliche Zahl der Kosten pro offengelegtem Datensatz so beliebt ist: Sie liefert eine schnelle, wenn auch unzuverlässige Antwort zu den Gesamtkosten eines bestimmten Verstoßes.

Um die durchschnittlichen Kosten pro Datensatz von 201 $ abzuleiten, addiert Ponemon einfach die Kosten (sowohl direkte als auch indirekte) aus ihrer Umfrage und dividiert durch die Anzahl der von den Unternehmen gemeldeten offengelegten Datensätzen. Das mag für Berechnungen durchaus praktisch sein, ist jedoch als Prädiktor nicht sonderlich gut. Ich gehe sanft um das Thema der linearen Regressionen herum, was eine Möglichkeit ist, eine “gute” gerade Linie durch den Datensatz zu ziehen. Wenn Sie mehr zu diesem sicherlich nicht ganz leicht zugänglichen Thema erfahren möchten, empfehle ich Ihnen den Blog von Jay Jacobs zur datengesteuerten Sicherheit. Er zeigt eine lineare Regression, die die einfache Ponemon-Linie mit ihrer Neigung von 201 schlägt – übrigens hatte er direkten Zugang zu den Umfrageergebnissen von Ponemon. Jacobs Beta liegt bei 103 USD, was man als Grenzkosten eines zusätzlichen offengelegten Datensatzes interpretieren kann. Aber selbst sein Regressionsmodell ist nicht allzu präzise.

Das grundlegende Problem ist, dass wir gerne eine lineare Welt sehen möchten, sie aber nun einmal nicht so funktioniert. Warum sollten Kosten für Verstöße um einen festgelegten Betrag für jeden weiteren gestohlenen Datensatz steigen? Sicher, für die Auszahlung von Kreditüberwachungskosten für Verbraucher und das Ersetzen von Kreditkarten, die von prozessfreudigen Kreditkartenunternehmen neu ausgegeben werden, summieren sich die Kosten auf einer Basis pro Datensatz. Auf der anderen Seite kenne ich nicht allzu viele Anwälte, Sicherheitsberater, Entwickler oder Penetrationstester, die zu ihren Klienten sagen: “Wir berechnen 50 Dollar pro Datensatz, um die Datenschutzverletzung zu analysieren oder zu beheben.“

Jacobs hat ein besseres nicht-lineares Modell gefunden – technisch log-linear, was eine ausgefallene Methode darstellt, um zu sagen, dass die Variable der Datensatzanzahl einen Exponenten enthält. In der Grafik unten habe ich die schlichte Ponemon-Linie mit dem ausgeklügelteren Modell von Jacobs verglichen. Sie können sich die Abweichung ansehen, ansonsten klicken Sie bitte hier, um sie selbst herauszufinden.

nicht-lineares Modell

Die große Abweichung: lineare vs. nicht-lineare Kostenschätzung bei Datenschutzverletzung.

Wenn Sie bis hierher durchgehalten haben: Gratulation! Ich hoffe, dass sich der ganze Hintergrund im nächsten Beitrag bezahlt macht, wenn ich versuche, diese Konzepte zu verbinden und damit eine nuanciertere Methode zu finden, um die Kosten von Datenverlusten zu verstehen.