Erwischt: Geheime PIIs in Ihren unstrukturierten Daten!

Personenbezogene, identifizierbare Informationen, kurz PII, sind relativ intuitiv. Wenn Sie die Telefonnummer, Sozialversicherungsnummer oder Kreditkartennummer von jemandem kennen, haben Sie eine direkte Verbindung zu dessen Identität. Hacker nutzen diese Erkennungsdaten zusammen mit noch ein paar weiteren persönlichen Angaben, um Informationen zu entschlüsseln, Identitäten zu stehlen und letztendlich an Ihr Geld zu kommen. In einigen meiner letzten Blogs habe ich bereits auf die immer undeutlicher werdenden Grenzen zwischen PII und nicht-PII-Daten hingewiesen. Auf den Punkt gebracht wissen wir bereits seit mindestens 10 Jahren, dass bestimmte Daten, die auf den ersten Blick anonym zu sein scheinen, in Verbindung mit anderen Informationen eine Person ebenso gut identifizieren können, wie herkömmliche PII.

Am einfachsten lassen sich diese sogenannten Quasi-PIIs am Beispiel des Trios von Geburtsdatum, Postleitzahl und Geschlecht erklären. Ein Unternehmen veröffentlicht einen Datensatz, in dem die personenbezogenen Daten “anonymisiert“ wurden. Wenn alle herkömmlichen PIIs bis auf diese drei Informationen entfernt wurden, kann ein ausgeklügelter Hacker mit großer Wahrscheinlichkeit die Namen und Adressen der Personen hinter diesen Daten bestimmen.

Wie funktioniert das? Grundsätzlich führt der Dieb die gleiche Arbeit durch, die auch ein Detektiv machen würde: Er gleicht Listen ab und sucht nach Treffern. In diesem Fall handelt es sich bei den Listen um Wählerverzeichnisse, die in den meisten amerikanischen Städten und Staaten zu einem kleinen Entgelt (normalerweise 40$) zu kaufen sind. Die Wählerverzeichnisse enthalten Namen, Adressen und vor allem auch das Geburtsdatum – Postleitzahlen können problemlos anhand der Adresse herausgefunden werden. Durch die Suche nach übereinstimmenden Geburtsdaten und Postleitzahlen können Identitätsdiebe die Suche auf wenige Namen einschränken. Wenn jetzt auch noch das Geschlecht bekannt ist, können Hacker mit den meisten amerikanischen Postleitzahlen zu einem einzigen Namen kommen. Natürlich kann die Suche und Treffergenauigkeit durch weitere Informationen oder Hinweise, die auf sozialen Netzwerken oder Websites gefunden werden können, deutlich optimiert werden.

Ein schnelles Rechenbeispiel macht deutlich, wie erfolgreich dieser Ansatz sein kann. Gehen wir von 365 Tagen (Schaltjahre ausgenommen) aus und multiplizieren wir diese mit einem Durchschnittsalter von 80 Jahren, so erhalten wir 29.200 Geburtstage, die in einem Postleitzahlbereich vorkommen könnten. Wenn Geschlechtsinformationen verfügbar sind, müssen Sie die Anzahl der möglichen Treffer verdoppeln, d. h. auf etwas über 58.000.

Ich höre schön die Stimmen der Erbsenzähler, die argumentieren werden, dass Wählerverzeichnisse ausschließlich Namen von volljährigen Personen enthalten und wir somit 6570 mögliche Treffer abziehen müssten. Das ist zwar korrekt, allerdings haben Forscher nachgewiesen, dass es möglich ist, die nachlässige Datenverwaltung bei Facebook dazu zu nutzen, um Seiten von minderjährigen Nutzern auszuspähen. Somit kann diese Lücke zumindest teilweise geschlossen werden.

Unabhängig davon gibt es laut der letzten amerikanischen Volkszählung mehr als 40.000 Postleitzahlenbereiche, in denen durchschnittlich nur 7000 Personen pro Postleitzahl wohnen. Mein Bauchgefühl sagt mir, dass die Wahrscheinlichkeit hoch ist, dass die meisten Menschen in diesem Postleitzahlbereich ein einzigartiges Geburtsdatum haben. In anderen Worten bestehen gute Chancen, dass es nur wenige Personen gibt, bei denen Geburtsdatum, Postleitzahl und Geschlecht gleich sind.

Latanya Sweeney, Professorin für Computerwissenschaften und Datenschutz an der Carnegie Mellon Universität machte im Jahr 2000 den Praxistest. Unter Verwendung der aktuellen Volkszählung (unterteilt nach Postleitzahlen und Altersgruppen) war sie in der Lage, allein auf Basis dieser drei nicht-PII Daten 87 % der Personen in den USA zu identifizieren.

Glücklicherweise fanden die Ergebnisse von Sweeney und anderen Experten ihren Weg in die Hände von Entscheidungsträgern. Wenn zum Beispiel medizinische Forschungen am Patienten veröffentlicht werden, sehen die Safe-Harbor-Regelungen zur Anonymisierung im HIPAA (Gesetz für Übertragbarkeit von Krankenversicherungen und zur Rechenschaftspflicht der Versicherer) vor, dass keine geografischen Einheiten in den öffentlichen Daten enthalten sein dürfen, die kleiner als der Bundesstaat sind. Vollständige Daten (z. B. Tag der Einweisung oder Geburtsdatum) dürfen ebenfalls nur ohne Angabe des Jahres aufgeführt werden.

Da die amerikanische Gesetzgebung zu personenbezogenen, identifizierbaren Informationen jedoch von Bundesstaat zu Bundesstaat unterschiedlich ist, ist dies bei Weitem keine universale Regel. Allerdings hat die amerikanische Bundeshandelskommission – eine einflussreiche Aufsichtsbehörde für Datenschutzbelange – vor kurzem ein neues Regelwerk für bewährte Verfahren bei der Anonymisierung von Daten herausgegeben. Alle Unternehmen wurden dazu angehalten, ein „angemessenes Maß an Vertrauen“ dahingehend aufzubauen, dass ihre öffentlichen Daten nicht mit Einzelpersonen in Verbindung gebracht werden können. Die Kombination aus Geburtsdatum, Postleitzahl und Geschlecht würde diesen Test jedoch eindeutig nicht bestehen.

Gibt es noch weitere Quasi-PIIs? Natürlich! Das größere Problem liegt jedoch darin, dass Verbraucher alle möglichen Informationen über sich auf Websites und sozialen Netzwerken veröffentlichen. Stellen Sie sich das folgende Szenario vor: Ein Online-Händler sammelt Angaben zu den Präferenzen seiner Kunden – Sport-Interessen, Hobbys etc. – zusammen mit geografischen Daten und vielleicht auch Informationen zum Einkommen.

Dies sind keine PII im eigentlichen Sinne. Wenn ein Hacker diese “anonymen“ Daten jedoch in einer Datei mit unzureichenden Zugriffsrechten auf einem Server findet, hat er ein leichtes Spiel damit, entsprechende persönliche Interessen auszuwerten und nach Namen zu suchen, die zu diesen Interessen und geografischen Daten passen. Sobald er einen Treffer hat, kann er einen Phishing-Angriff starten und sich als den Einzelhändler ausgeben.

Unternehmen, die auf die neuen strengeren Regeln zur Anonymisierung, die in den USA aktuell in Erwägung gezogen werden und die höchstwahrscheinlich in der EU umgesetzt werden, vorbereitet sein wollen, sollten ihre nicht-PII-Daten schon einmal gründlich überprüfen. Unabhängig davon, wo in ihrem Dateisystem sich diese Daten befinden.

The post Erwischt: Geheime PIIs in Ihren unstrukturierten Daten! appeared first on Varonis Deutsch.

What you should do now

Below are three ways we can help you begin your journey to reducing data risk at your company:

Schedule a demo session with us, where we can show you around, answer your questions, and help you see if Varonis is right for you.
Download our free report and learn the risks associated with SaaS data exposure.
Share this blog post with someone you know who'd enjoy reading it. Share it with them via email, LinkedIn, Reddit, or Facebook.

Michael Buckbee

Michael hat als Systemadministrator und Softwareentwickler für Startups im Silicon Valley, die US Navy und alles dazwischen gearbeitet.