Die Mindsets von CEOs und CISOs, Teil IV: Monte-Carlo-Modellierung der Kosten von Datenschutzverletzungen für CISOs!

Datenschutzverletzungen

Mit dieser Serie verfolge ich das Ziel, den CISOs Einblicke in die Entscheidungsfindung auf CEO- und Vorstandsebene zu geben, damit diese sich dann bei den Verhandlungen über potenziellen Anschaffungen für Datensicherheit durchsetzen können. Beim letzten Mal, in meiner ersten Erläuterung, habe ich erklärt, dass CISOs zwei Schlüsselfaktoren für Datenschutzverletzungen quantifizieren sollten: die Häufigkeit der Angriffe und die Wahrscheinlichkeit, dass die Kosten der Datenschutzverletzung eine bestimmte Schwelle überschreiten. Nur wenn Sie diese beiden Zutaten kennen (und ihnen jeweils Zahlen oder Zahlenbereiche zuweisen können), können Sie bei CEOs und CFOs punkten.

Den Bossen Ihres Unternehmen liegt es im Blut, Entscheidungen unter Unsicherheit zu treffen: Sie sind Profis darin, alle Wahrscheinlichkeiten zu kennen und die richtigen Wetten zu platzieren. Und CISOs sollten die Risiko-Fachsprache verstehen und wissen, wie man einige grundlegende Risikoberechnungen durchführt.

Gleichzeitig sollten CEOs auch unbedingt Grundkenntnisse über die erstaunlich fiesen Tricks haben, die Hackern nach dem Eindringen in ein System zur Verfügung stehen. Das werde ich im nächsten Beitrag aufgreifen. Aber meiner Meinung nach ist die größere Wissenslücke, die es zu schließen gilt, der aktuelle Kenntnisstand der CISOs.

Zur Belohnung für die CISOs und Technologiemanager, die es bis hierher in der Serie geschafft haben, habe ich ein tolles Excel-Spreadsheet, mit dem Sie (Tusch!) Ihre eigene Monte-Carlo-Modellierung durchführen können! Sie werden Ihren CEO bei Ihrer nächsten Präsentation tief beeindrucken, wenn Sie diese Simulation für Ihr Unternehmen und Ihre Branche optimieren.

Wir wollen FAIR bleiben

Ich bin ein Fan des FAIR-Instituts und seines Frameworks für Risikoanalysen. Man kann natürlich zahlreiche Informationen über Risiken in den Videoportalen des Internets finden, aber die Typen bei FAIR sind ausgezeichnete Pädagogen und bieten Orientierung in einem ziemlich – hüstel – nerdigem Thema. Sie können sich beliebig intensiv mit der FAIR-Analyse auseinandersetzen, aber wie ich im vorherigen Beitrag beschrieben habe, kann selbst eine kurze Stippvisite sehr nützliche Ergebnisse für Entscheidungen liefern.

Auf der ersten Ebene der FAIR-Analyse müssen Sie sich mit den beiden Faktoren beschäftigen, die ich vorstehend genannt habe. Leiten Sie zunächst eine Verlustüberschreitungskurve für Ihre spezielle Branche oder Ihr Unternehmen ab. In meinem Fall konnte ich einen Datensatz von Datenschutzverletzungen im öffentlichen Gesundheitswesen verwenden, die gemäß HIPAA gemeldet wurden, und dann die Ergebnisse einer Regression basierend auf der Ponemon-Umfrage anwenden.

Ich kann jetzt sagen, wie viel Prozent der Schäden von Datenschutzverletzungen im Gesundheitswesen über einen bestimmten Kostenbetrag pro Einzelvorfall hinausgehen.

Übrigens, eine ähnliche Art von Kurve wird auch von Versicherungsgesellschaften für Auto- und Hausratsversicherungen berechnet. Das Problem ist das gleiche. Für sie ist ein großer Schadensfall vergleichbar mit einer kostspieligen Datenschutzverletzung. Letztendlich nutzen Versicherungsunternehmen die Verlustüberschreitungskurven, um die Prämien auszuarbeiten, mit denen sie die Versicherungskosten decken und einen Gewinn erwirtschaften können. Und wir können uns die Kosten einer Lizenz für eine Datenchutzsoftware auch als eine Art Versicherungsprämie vorstellen, die das Unternehmen zahlt, um Verluste aus Datenschutzverletzungen zu begrenzen.

Wie auch immer, der zweite Faktor ist die Häufigkeit oder Frequenz, mit welcher der Datenschutz bei Unternehmen verletzt wird. Sie können eine fundierte Schätzung einer Durchschnittsfrequenz aufstellen, was ich letztes Mal für mein hypothetisches Gesundheitsunternehmen getan habe.

Damit kommen wir zu einem wichtigen Punkt: Was passiert, wenn Sie nur über begrenzte Daten aus der realen Welt verfügen? Glücklicherweise ist das im FAIR-Ansatz vorgesehen, und es gibt Techniken, um interne Informationen, die von Ihrem Infosec-Team gesammelt wurden – zum Beispiel die Häufigkeit abgeschlossener SQL-Injektionen in den letzten 5 Jahren – mit allen verfügbaren öffentlichen Informationen aus externen Quellen zu kombinieren oder zu gewichten. Diese Idee wird teilweise in einem Video behandelt, das die FAIR-Mitarbeiter produziert haben.

Was machen Sie dann mit diesen beiden Faktoren?

Sie multiplizieren sie: Häufigkeit x Einzelverlust gleich Gesamtverlust.

Nun, ganz so einfach ist es nicht!

Genaue Formeln sind für reale Szenarien in der Regel nicht einfach zu finden. Und deshalb führen Sie eine Monte-Carlo- (MC) Simulation durch!

Bei einer MC-Simulation würfeln Sie (mit dem in Excel integrierten Zufallszahlengenerator), um das Eintreten eines Angriffs zu simulieren. Und dann würfeln Sie noch einmal, um das Verlustpotenzial für einen Angriff zu generieren. Sie addieren die Verluste, bringen sie in eine Reihenfolge und erstellen eine Kurve, auf der die gesamten Überschreitungsverluste für eine bestimmte durchschnittliche Häufigkeit über einen bestimmten Zeitraum dargestellt sind.

In meiner MC-Simulation habe ich mithilfe einer Excel-Tabelle und speziellen Visual Basic-Makros, die ich hinzugefügt habe, ein paar tausend Mal gewürfelt. Ich habe ein Gesundheitsunternehmen über einen Zeitraum von zehn Jahren mit einer durchschnittlichen Frequenz von vier Vorfällen und einer einzigen Verlustkurve auf der Grundlage des HIPAA-Datensatzes modelliert und dabei die folgende Gesamtschadenskurve erhalten:

Die Kurve der gesamten Überschreitungsverluste aus Datenschutzverletzungen

Die Kurve der gesamten Überschreitungsverluste aus Datenschutzverletzungen. Das ultimative Ziel der MC-Simulation!

Das ist wirklich das Ziel der Simulation: Sie möchten eine Verteilung oder Kurve erhalten, die die Summe der Verluste anzeigt, die entstehen, wenn eine zufällige Anzahl von Angriffen über einen bestimmten Zeitraum auftritt. Stellen Sie sich vor: Ausgerüstet mit dieser Art von Analyse stellen Sie sich selbstbewusst mit einer Präsentation vor Ihren CEO und CFO und stellen fest: „Es besteht eine 10%ige Chance, dass unser Unternehmen in den nächsten 10 Jahren einen Verlust von 35 Millionen Dollar erleidet.“ Ihr CEO wird Sie ab diesem Zeitpunkt mit einem nahezu verliebten Vorstandsblick betrachten.

Die wichtigste Lektion von FAIR ist, dass Sie das Risiko von Datenschutzverletzungen quantifizieren können, um eine für Planungszwecke ausreichend gute Überschlagsrechnung aufzustellen. Die Lösung ist keineswegs perfekt, aber sie ist viel besser als blind zu fliegen. Betrachten Sie es als eine Art Gedankenexperiment, ähnlich wie bei der Beantwortung einer Interviewfrage im Google-Stil. Und wenn Sie tiefer in FAIR einsteigen, ist die Übung, zu analysieren, welche Daten gefährdet sind, welchen Wert sie haben, und welche Datenschutzverletzungsszenarien mit Priorität zu behandeln sind, um ihrer selbst willen wertvoll! Mit anderen Worten, Sie könnten dabei Dinge in Erfahrung bringen, die Sie vorher nicht wussten.

Value at Risk für CISOs

Bei meiner Analyse der HIPAA-Daten musste ich die Kurven mit Hilfe von handelsüblicher Statistik-Software ein bisschen durchkneten. Ich konnte den Datensatz in eine Potenzgesetz-Kurve überführen – Nerds können sich diese Pareto-Verteilung ansehen. Endlastige Kurven, die bei Datenschutzverletzungsstatistiken (und anderen Katastrophendaten) sehr häufig vorkommen, können durch eine potenzgesetzliche Formel im Randbereich annäherungsweise nachgebildet werden.

Das sind gute Nachrichten!

Es ist einfacher, bei Simulationen und Durchkneten von Zahlen mit Potenzgesetzen zu arbeiten, und der Randbereich ist wirklich der interessanteste Teil für Planungszwecke – hier sind die Katastrophen zu finden. Zugegeben, CFOs und CEOs betrachten die durchschnittlichen Verluste – aber sie achten viel stärker auf die Worst-Case-Szenarien.

Schließlich ist die Vorstandsebene dafür verantwortlich, das Unternehmen am Laufen zu halten, auch Datenschutzverletzungen, die dem Wirbelsturms Sandy entsprechen. Sie müssen also auf diese extremen Ereignisse vorbereitet sein, und das bedeutet, die notwendigen Investitionen zur Begrenzung der Verluste aus katastrophalen Schäden im Randbereich zu tätigen.

Und damit kommen wir zum Value at Risk oder VaR.

Lassen Sie uns den Begriff zunächst von Mythen befreien. Der VaR ist wirklich eine einzige Zahl, die Ihnen zeigt, wie schlimm es werden kann. Ein 90%iger VaR für Verluste aus Datenschutzverletzungen ist die Zahl, die größer ist als alle Verluste bis auf 10% der Verlustfälle. Ein 95%iger VaR ist größer als alle anderen Schäden mit Ausnahme von 5%.

An der obigen Kurve können Sie den VaR ablesen, indem Sie an der Y-Achse den Wert von 5% oder 1% finden und der horizontalen Linie bis zur Kurve folgen, um am Schnittpunkt mit der Kurve unten an der X-Achse den Wert zu bestimmen. Diese Vorgehensweise entspricht im Grunde genommen einem Reverse-Lookup. Behalten Sie das in Erinnerung.

Sie führen meine MC-Simulation durch Eingabe der durchschnittlichen Häufigkeiten und einer einzigen Verlustkurve (tatsächlich dem Randbereich) aus, die auf einem realen Datensatz basieren, und lassen sie Tausende von möglichen Szenarien generieren. Im Hinblick auf den VaR interessieren Sie und Ihre Vorstandsebene sich insbesondere für einige ausgewählte Szenarien – und zwar diejenigen, die in der sortierten Ergebnisliste ganz oben stehen.

Unten sehen Sie konkrete Beispielläufe aus meiner Excel-Tabelle für die VaRs bei 90%, 95%, 97,5% und 99%. Am Ende von 10 Jahren liegt der 99%ige VaR also bei über 120 Millionen US-Dollar, die auf drei Ereignisse verteilt sind – beachten Sie die Sprünge.

Datenschutzverletzungen

Beachten Sie die enormen Sprünge in den Kurven für 97,5% und 99%. Sie sind eine Eigenschaft (und kein Fehler) bei endlastigen Kurven.

Die Geheimnisse des Drachen mit dem Long Tail 

Ich habe geschwindelt. Es stellt sich heraus, dass man für endlastige Verteilungen tatsächlich gar keine MC-Simulation durchführen muss, um einige VaR-Zahlen zu erhalten. Es gibt eine Formel!

Ich werde andeuten, worum es sich dabei handeln könnte, aber um zu sehen, wie sie im Falle einer Pareto-Distribution aussieht, müssen Sie das Spreadsheet herunterladen. Mit der VaR-Formel kann man eine schnelle Überschlagsrechnung erstellen. Die MC-Simulation ist weiterhin nützlich, um die Formel mit simulierten Daten auf Basis Ihrer Modellierung zu überprüfen.

Für den Hintergrund zu all dem gibt es eine für dieses mathematiklastige Thema überraschend lesbare Präsentation, die von zwei Statistikern geschrieben wurde. Sie beschreiben auf einfache Weise einige der mysteriösen Eigenschaften dieser Ungeheuer mit endlastigem Schwanz. Ja, Drachen sind magische Biester. Zu ihren seltsamen Kräften gehört, dass diese Monster Sie mit einem einzigen überwältigenden Ereignis zerquetschen können. Das ist an den 97,5% und 99% VaRs in der obigen 10-jährigen Simulation zu erkennen. Beachten Sie, dass es in beiden Fällen einen großen Sprung gibt.

Ein weiterer seltsamer, nahezu magischer Sachverhalt ist, wie einfach es ist, für viele endlastige Datensätze eine gute VaR-Näherung zu berechnen. Ich habe es oben angedeutet. Im Wesentlichen kann man sich den VaR als Reverse-Lookup vorstellen. Das bezeichnet im Mathe-Jargon das Invertieren einer Formel. Bei mehreren Verlusten mit eine bestimmten Frequenz oder Häufigkeit im Zeitverlauf lässt sich die VaR-Formel durch eine leichte Anpassung der inversen Pareto-Verteilung berechnen. Um die genaue Formel zu erhalten, müssen Sie sich mein Excel Spreadsheet anschauen.

Was können Sie sonst noch mit all diesen Wahrscheinlichkeitsinformationen anstellen?

Sie können damit beginnen herauszufinden, ob sich eine Investition in eine Datensicherheitssoftware rechnet – vorausgesetzt, die Software verhindert den Angriff. In meinem Spreadsheet lasse ich Sie einen Break-Even-Prozentsatz auf der Grundlage einer jährlichen Investition in Sicherheitslösungen berechnen. Und ich habe auch die durchschnittliche Amortisation berechnet – wie viel Geld Sie durch Ihre Schutzsoftware im Durchschnitt sparen.

Datenschutzverletzungsdaten

Die Datensicherheitssoftware zahlt für sich selbst! Hier ist ein ausgearbeitetes Beispiel für eine Investition von 400.000 USD/Jahr unter der Annahme einer endlastigen Pareto-Kurve, die ich aus den HIPAA-Datenschutzverletzungsdaten abgeleitet habe.

Für heute soll uns das genügen.

Im nächsten Beitrag werde ich Ihnen noch ein paar Gedanken zum VaR vorstellen, und dann werden wir in das Basiswissen einsteigen, das CEOs über Hacker-Aktivitäten nach dem Eindringen in ein System haben sollten.

Ich beende diesen Beitrag mit einem Zitat der größten Band aller Zeiten (Abba natürlich J), das meiner Meinung nach die verheerende Kraft der endlastigen Schadensverteilung bei Datenschutzverletzungen hervorragend zusammenfasst:

But I was a fool
Playing by the rules
The gods may throw a dice
Their minds as cold as ice
And someone way down here
Loses someone dear

Vielen Dank an Benny für diesen großartigen Einblick in die Kosten von Datenschutzverletzungen.

Laden Sie noch heute das Spreadsheet für die Modellierung der Kosten von Datenschutzverletzungen herunter!