Viele Unternehmen kämpfen mit Dubletten in ihren Datenbanken für Kunden und Interessenten.
Die Gründe für die Erzeugung von Dubletten sind vielfältig:
- Zusammenführen von Datenbeständen im Rahmen der Zusammenlegung von Abteilungen oder der Fusionierung von Unternehmen
- Viele verschiedene Datenquellen ohne Kontrolle der Dateneingabe
- Ungenügende Eingaberichtlinien und fehlende Prüf- und Korrekturschritte
Im Unternehmensalltag sind Dubletten aktuell zwar unangenehm, aber nicht systemkritisch. Sie verhindern eine 360 Grad-Sicht auf den Kunden, erzeugen vermeidbare doppelte Produktionskosten und sorgen auch für Stirnrunzeln bis Verärgerung beim Empfänger.
DSGVO 2018: Dubletten werden Ihnen teuer zu stehen kommen
Mit der Gültigkeit der Datenschutz-Grundverordnung kommen jedoch noch weitere Elemente hinzu. Wenn beispielsweise bei einer Anfrage auf Auskunft nicht alle Daten geliefert werden können, weil sich manches in Dubletten findet, die man bei der Auskunft nicht berücksichtigt hat, so birgt das Gefahrenpotential.
Noch kritischer wird es, wenn eine Person die Löschung beantragt oder von einer ihrer Widerspruchsrechte Gebrauch macht. In vielen Fällen wird das dann eben nicht für alle Dublettendatensätze durchgeführt. Das führt dazu, dass einzelne Datensätze die Löschung „überleben“ und weiterhin verwendet werden. Die betroffene Person, die vorher die Löschung verlangt hat, kann sich daraufhin völlig legitim bei der Aufsichtsbehörde beschweren und damit eine Folge von unangenehmen Fragen auslösen.
Stammdaten-Management ernst nehmen
Die Erkennung und Vermeidung von Dubletten muss daher in der Stammdaten-Strategie eines Unternehmens eine hohe Priorität haben. Die Dublettenerkennungsmechanismen der meisten Systeme sind jedoch nur auf eine genaue Übereinstimmung der Daten ausgerichtet. Wenn bei einem Datensatz als Adresse die „Schillerstr. 12“ und beim anderen die „Friedrich-Schiller-Straße 12“ eingetragen ist, so wird das von den meisten Systemen nicht als Dublette erkannt. Wenn jedoch vorher eine Standardisierung von Schreibweisen (in diesem Fall über eine Adressprüfung und -korrektur; beispielsweise über die Funktionen von data.mill GmbH) stattgefunden hat, so ist die Wahrscheinlichkeit viel größer, Dubletten zu entdecken.
Noch schwieriger wird es bei der Erkennung von Dubletten in B2B-Datenbanken, denn es gibt ein gefühltes Dutzend von möglichen Schreibweisen für Firmennamen, wenn man sich die Mühe der Recherche des „offiziellen“ Namens nicht macht („XY Handels GmbH“, „XY Handelsgesellschaft m.b.H.“, „XY G.m.b.H.“, …). Auch hier hilft eine Standardisierung der Schreibweise. Darüber hinaus kann jedes Unternehmen weltweit durch eine ID identifiziert werden, die auch nach einer Umbenennung, Sitzverlegung oder Fusion mit einer anderen Firma erhalten bleibt. Die am weitesten verbreitete ID ist die D-U-N-S-Nummer von Bisnode, die sich ebenfalls über geeignete Systeme automatisiert abfragen und mit weiteren Informationen (z. B. Unternehmensgröße, Branche, …) anreichern lässt. So erhalten Unternehmen mit unterschiedlichen Firmennamen in der Datenbank die gleiche D-U-N-S-Nummer und werden auch von starr agierenden Systemen als Dublette erkannt.
Welcher Datensatz „überlebt“?
Die Erkennung einer Dublette ist leider nur die halbe Miete. In einem nächsten Schritt muss nämlich auch entschieden werden, welcher der Datensätze „überleben“ soll (Master Record). Das bedeutet, dass die Daten der anderen Datensätze mit dem Master Record fusioniert werden müssen. Je nach Komplexität einer Firmenorganisation kann das einen ziemlich aufwändigen Prozess nach sich ziehen.
Um sich vor den negativen Auswirkungen von Dubletten zu schützen sind also sowohl Mechanismen für die Dublettenerkennung als auch Prozesse für das Zusammenfügen der gefundenen Dubletten notwendig. Eine Detailanalyse der Datenstruktur durch das betreuende Systemhaus bzw. das CRM-Team ist dafür eine wichtige Voraussetzung. Die Dublettenerkennung arbeitet viel besser, wenn zusätzlich noch Maßnahmen zur Standardisierung von Schreibweisen, somit zur Erhöhung der Datenqualität implementiert wurden.