Finden personenbezogener EU-Personendaten mit regulären Ausdrücken (RegEx)

DSGVO RegEx

Wenn es einen überaus wichtigen, aber unterschätzten Punkt zur Einhaltung strenger Datensicherheitsrichtlinien wie der Datenschutz-Grundverordnung (DSGVO) gibt, dann ist es die Bedeutung des Findens und Klassifizierens personenbezogenen Daten. Herauszufinden, wo sich personenbezogene Daten in Dateisystemen befinden und welche Berechtigungen zum Schutz dieser Daten verwendet werden, sollte der erste Schritt in jedem Aktionsplan sein.

Dies ist nicht nur unsere Einschätzung, vielmehr findet sich dieser Punkt auch in den DSGVO-To-Do-Listen von Anwaltskanzleien und Beratungsunternehmen, die schwerpunktmäßig mit der Compliance-Beratung von Unternehmen befasst sind.

Wir hatten ja bereits auf die neuen DSGVO-Patterns hingewiesen, mit denen Sie personenbezogene Daten leichter entdecken können. Zwischenzeitlich habe ich mit Sarah und dem Varonis-Produktentwicklungsteam gesprochen und kann Ihnen etwas mehr hierüber verraten.

Keiner kann das besser

Die DSGVO-Patterns basieren auf unserem Data Classification Framework (DCF). Für die Varonis-Neueinsteiger: DCF bietet einen enormen Vorteil gegenüber anderen Klassifizierungslösungen, da es echtes inkrementelles Scannen implementiert. Nach dem ersten Scan des Dateisystems kann DCF alle Änderungen schnell erkennen und selektiv die Verzeichnisse oder Ordner, auf die zugegriffen wurde, durchsuchen. Das ist viel sinnvoller, als das Scannen von Grund auf neu zu starten!

Übrigens: Wer verrückt genug ist, zu glauben, dass er eine eigene Daten-Scansoftware einführen könnte, verweise ich an meine Serie von Beiträgen zu einem selbst konstruierten Klassifizierungssystem, basierend auf PowerShell. Lernen Sie von meiner verrückten Idee und unterdrücken Sie lieber den Drang, es selbst zu versuchen.

Während DCF den Hauptteil erledigt, können sich die DSGVO-Patterns auf das Auffinden personenbezogener Daten konzentrieren. Laut DSGVO-Definition sind personenbezogene Daten faktisch alle, die sich auf eine Person beziehen und mit denen man diese Person identifizieren kann. Die Definition ist sehr weit gefasst und die irreführende, vage gehaltene Sprache deckt ein weites Feld ab! (Weitere Details finden Sie in diesem offiziellen EU-Dokument.)

Letztlich sprechen wir über die üblichen Verdächtigen: Namen, Adressen, Telefonnummern, Kreditkarten-, Bank- und andere Kontonummern. Personenbezogene Daten nach DSGVO erstrecken sich ebenfalls auf Kennungen des Internetzeitalters, wie IP und E-Mail-Adressen ebenso wie auf futuristisch anmutende biometrische Kennungen (DNS, Netzhautscans).

Viele EU-Kennungen

Die EU besteht aus 28 Ländern und das bedeutet, dass viele Kennungen je nach Land variieren. Hier hat das Produktteam von Varonis viel Arbeit in Recherchen investiert und Monate mit der Analyse von Telefonnummern, Kfz-Kennzeichen, Umsatzsteuernummern, Pässen, Führerscheinen und Personalausweisen der gesamten EU zugebracht.

Weiß zufällig irgendjemand, wie der ungarische persönliche Identifikationscode (Születési szám) aussieht?

Das wäre eine 11-stellige Zeichenfolge basierend auf Geburtsdatum, Geschlecht, einer nur einmal vergebenen Zahl zur Unterscheidung derer, die am gleichen Tag geboren wurden, sowie einer Prüfsumme.

Oder wie sieht es mit einer slowakischen Passnummer aus?

Die ist 9-stellig: 2 Zahlen gefolgt von 7 Buchstaben.

Varonis hat all das herausgearbeitet!

Wir verwenden reguläre Ausdrücke (RegEx) zum Abgleich von Mustern soweit dies möglich ist. Dabei ist es nicht ganz so einfach, diese regulären Ausdrücke zu erstellen, wie es vielleicht scheint.

Wenn Sie sich mit den Leuten messen wollen, die das niederländische Nummernschild-System entworfen haben, klicken Sie hier, um eine RegEx-Analyse einer Stichproben-Nummer zu sehen. Versuchen Sie es ruhig ein paarmal, um festzustellen, ob Sie das System begriffen haben. Viel Spaß dabei!

DSGVO RegEx

Ein regulärer Ausdruck, der niederländische Kfz-Kennzeichen darstellt. Denken Sie, Sie haben ihn verstanden? Dann versuchen Sie Ihr Glück mit dem Link oben!

Patterns sind mehr als nur reguläre Ausdrücke

Unsere Recherche und Anstrengungen zur Erstellung der regulären Ausdrücke bilden nur einen Teil der DSGVO-Patterns-Lösung. Es ist natürlich denkbar, dass man reguläre Ausdrücke für ein paar Länder erarbeiten oder nach diesen im Internet googeln kann.

Wir haben jedoch unsere regulären Ausdrücke gestaltet, indem wir reale Datenstichproben betrachtet haben, und uns nicht automatisch auf Angaben von Behörden usw. verlassen haben. Unsere regulären Ausdrücke für die DSGVO haben sich im Feld bewährt!

Bei so vielen alphanumerischen Mustern sollte es nicht überraschen, dass es zu gelegentlichen „Kollisionen“ kommen kann – Zeichenfolgen, die als unterschiedliche Arten personenbezogener Daten klassifiziert werden können. Beispielsweise variieren die EU-Passnummern zwischen 8 und 10 aufeinanderfolgenden Zahlen, so dass sie auch von einem regulären Ausdruck für EU-Telefonnummern erfasst würden.

Darum haben wir die regulären Ausdrücke durch zusätzliche Prüfalgorithmen ergänzt. DSGVO-Patterns untersuchen gezielt den Kontext der gefundenen Kennungen auf bestimmte Schlüsselwörter.

Wenn die DSGVO-Patterns eine 11-stellige Nummer finden, suchen sie nach zusätzlichen Schlüsselwörtern, um zu bestimmen, ob sie für einen nationalen Personalausweis stehen: „IK“ oder „ISIKUKOOD“ lässt auf Estland schließen; “Születési szám” oder “Személyi szám” oder “Személyi azonosító” würde selbstverständlich auf Ungarn deuten usw.

Falls wir keine der zusätzlichen Schlüsselwörter finden, können wir nicht davon ausgehen, dass es sich bei den 11 Ziffern um einen Identifizierungscode handelt, daher würden sie nicht als personenbezogene Daten nach DSGVO klassifiziert werden. Mit anderen Worten: Die Prüfalgorithmen verringern die Zahl der Falschmeldungen (false positives).

Für den Fall, dass es Sie interessiert: Wir setzen ebenfalls negative Schlüsselwörter ein. Falls eines hiervon gefunden wird, bedeutet dies, dass die durch reguläre Ausdrücke gefundenen Informationen eben nicht als DSGVO-relevant klassifiziert werden.

 

Mehr Details zu GDPR Patterns

Die Entwickler von Varonis sind tief in die Materie der EU-Identifikationsnummern, Führerscheine, Kfz-Kennzeichen und Telefonnummern eingetaucht, haben sich realistische Stichproben angesehen, um dann sowohl positive als auch negative Schlüsselwörter sowie Näherungsinformationen zu entwickeln.

Die neuen DSGVO-Patterns können sowohl in DatAdvantage-Reports integriert werden, um zu zeigen, welche Dateien ein bestimmtes Muster enthalten, als auch in DatAlert, um beim Zugriff auf diese sensiblen Dateien entsprechende Benachrichtigungen zu verschicken. Auf diese Weise unterstützen wir Sie bei der Einhaltung der 72-Stunden Frist zur Meldung von Datenschutzverletzungen nach der DSGVO.

Außerdem kann auch die Data Transport Engine die Patterns zur Archivierung oder Löschung veralteter bzw. nicht mehr genutzter Daten genutzt werden, wodurch Unternehmen bei der Einhaltung einer weiteren wichtigen Forderung der DSGVO unterstützt werden.

Haben Sie noch Fragen? Für weitere Informationen wenden Sie sich bitte an uns.