Datendemenz: nichts altert schneller als Adressdaten

Autor: Florian Goldstein

Mit mehr als 20 Jahren Erfahrung ist die Business Data Solutions GmbH & Co. KG einer der führenden B2B Datenplattform-Anbieter Deutschlands und zuverlässiger Partner bei allen Themen rund um Datenanalysen, Datenmanagement, Referenzdatenbanken und B2B-Adressen. Grundlage unserer Arbeit ist eine eigene, streng nach DSGVO erhobene Big Data aus 10 Mio. deutschsprachigen Domains mit ca. 3 Milliarden Keywords. Alle Daten werden aus öffentlich zugänglichen Onlinequellen wie Social Media, Registern oder Firmenwebseiten gewonnen und durch Data Scientists klassifiziert. Damit hat BDS eine nahezu vollständige digitale Abbildung aller ca. 4,8 Mio. wirtschaftsaktiven Firmen in Deutschland geschaffen.

Datendemenz – was ist das überhaupt?

Die meisten kennen sicherlich den Begriff der Demenz, viele hatten schon direkte Berührung mit der wirklich schlimmen Erkrankung. Betroffen sind v.a. ältere Personen, deren Nervenzellen im Gehirn nach und nach absterben und ihre Verknüpfungen verlieren. Das wirkt sich vor allem bei der immer weiter sinkenden geistigen Leistungsfähigkeit aus.

Was hat das jetzt mit Daten zu tun?

Der Begriff „Datendemenz“ ist ein Kunstwort, aber ein sehr treffendes:

Betroffen von Datendemenz sind ältere und schlecht gepflegte Adressdatenbanken, Ursache ist ebenfalls der Verlust von Verknüpfungen, nur eben der zwischen Daten. Wenn ich keine Verknüpfungen zwischen alten und neuen Daten herstellen kann, dann verliert mein System erheblich an Leistungsfähigkeit.

Welche Daten(banken) sind betroffen?

Aus unserer Erfahrung ist jede Datenbank über kurz oder lang von Datendemenz betroffen. Sobald eine Datenbank einen der folgenden vier Punkte entspricht:

  • Wachsende Datenbanken
  • Alte Datenbanken
  • Datenbanken mit vielen Nutzern
  • Unternehmensdatenbank mit Daten aus vielen unterschiedlichen Systemen

Die Datendemenz potenziert sich, wenn mehrere dieser Faktoren zusammenkommen.

Warum sind diese Datenbanken betroffen?

Im Grunde sind es nur drei Ursachen:

1. Viele Datenquellen mit sehr unterschiedlicher Datenqualität

Jede Unternehmen generiert wahnsinnig viele Daten auf vielen verschiedenen Ebenen: Messen, Social Media Kontakte, Telefonate, Buchhaltungsdaten, Newsletter Anmeldungen etc. pp. Häufig kommt eine unterschiedliche Datenqualität hinzu. So sind Buchhaltungsdaten in der Regel sehr gut gepflegt. Daten, die z.B. auf Messen erzeugt werden oder Newsletter Anmeldungen, sind häufig unvollständig. Die Wahrscheinlichkeit für versehentliche Dubletten ist hier selbst bei guter Datenhygiene hoch. Auch bei einem unternehmensweiten ERP gibt ein durchaus hohes Potenzial für Fehleranfälligkeit durch versehentliche Doppelanlage, die die integrierte Dublettenerkennung nicht erfassen kann.

Liegt noch kein unternehmensweites ERP vor, bedeutet das, dass die einzelnen Systeme nicht verknüpft sind. Hier liegen die einzelnen Informationen zwangsweise doppelt und dreifach vor. Der Vertrieb hat sein eigenes für den Vertrieb optimiertes Programm, das Marketing arbeitet noch mit Excel, die Buchhaltung hat ihre eigene Software und keiner weiß irgendetwas vom anderen – eine 360° Ansicht vom Kunden ist so schlicht nicht möglich. Im wesentlich ergeben sich aus dieser Gemengelage zwei Probleme:

  • Unerkannte, versehentliche Dubletten
  • Nicht verfügbare, aber dennoch wichtige Informationen

Das kann viele Probleme nach sich ziehen: Das Marketing bewirbt z.B. jemanden, der schon längst Kunde ist oder gegen den sogar schon ein Mahnverfahren läuft. Der Vertrieb versucht Akquise bei Leuten, die sich im Call Center schon zigmal beschwert haben. Oder die Mailingaktion hat erstaunlich wenig Feedback, weil viele Interessenten mehrfach im System vorlagen.

2. Der Faktor Mensch

Eine Unachtsamkeit hier, ein Schreibfehler da, bei Copy & Paste nicht alles erwischt, ein Leerzeichen zu viel – Schwupps hat man ein Datenproblem. Je mehr Nutzer, um so schwerwiegender wird das Problem. Nochmal schwieriger wird es, wenn Mitarbeiter unzureichend geschult sind oder Ihnen das Verständnis für bestimmte Arbeitsweisen fehlt, die Ihnen als viel zu kompliziert erscheinen.

Im Grunde hilft hier nur eines: Eine gute Datenhygiene im Unternehmen kultivieren. Allen Mitarbeitenden muss ein Gefühl für Daten und deren Wertigkeit mit auf den Weg gegeben werden. Wer weiß, warum er etwas tun soll und wie wertvoll dieser Beitrag für das gesamte Unternehmen ist, der wird viel weniger Schwierigkeiten bei der Umsetzung haben.

Mit dem Thema Schreibfehler haben wir bei BDS schon einige lustige Anekdoten erlebt. Wir haben letztes Jahr eine große B2B – Social Media Quelle gehoben. Hier haben wir Ansprechpartner mit ihren Berufsbezeichnungen mit unserem Bestand abgleichen müssen. Hier sind uns zwei Dinge aufgefallen: Die richtige Schreibweise des eigenen Arbeitgebers scheint bei manchen Menschen nicht die oberste Priorität zu haben. Und wir haben gelernt, auf wie viele Weisen man das Wort “Geschäftsführer” falsch schreiben kann.

Dank unserer Data Scientists und sehr gut trainierter KI war das Problem für uns gut lösbar.

Unachtsamkeit ist das eine – sehr oft liegt das Problem auch in der Bequemlichkeit. Manche Silos sind schlechter zu bearbeiten als andere. Wenn dort z.B. 20.000 Datensätze liegen und eine Mailingauflage mit 1000 Stück kommt, dann wird der eine oder andere Mitarbeitende die nehmen, die am bequemsten aus der Datenbank zu holen sind und nicht unbedingt die, die das meiste Marktpotenzial haben. Hier ist es hilfreich, die Daten zu harmonisieren, um alle Daten gleich gut bearbeiten zu können.

3. Äußere Einflüsse

Dann gibt es noch eine ganz und gar unangenehme Ursache für Datendemenz. Unangenehm deshalb, weil wir aktiv nichts dagegen tun können. Diese Einflüsse kommen von ganz alleine. Erfahrungsgemäß gibt es pro Jahr in unserem Bestand ca. 1,8 % Insolvenzen und Löschungen, ca. 2 % Umzüge, 0,5 % Verschmelzungen und 1,1 % Namensänderungen.

Das ist doch nicht viel, sagen Sie jetzt? Naja – in einem Jahr ist das nicht so viel. Wobei sich auch hier schon die einzelnen Bereiche zusammenläppern können. Aber schauen Sie nach zwei, drei, vier Jahren nochmal in ihre Daten. Schön zu sehen ist das an folgendem Beispiel:

äußere Einflüsse auf die Datenqualität

Das ist ein reales Beispiel aus unserer täglichen Praxis. Die Veränderungen, die sich in den letzten 5 Jahren ergeben haben betreffen insgesamt 21% aller Datensätze. An diesem Beispiel ist auch schön zu sehen, dass vor 5 Jahren bereits eine (teilweise) Datenbereinigung stattfand durch uns. Hier ist die Zahl der Veränderungsdaten deutlich kleiner.

Fazit

Gegen Datendemenz ist keine noch so gut intern gepflegte Datenbank restlos gewappnet. Daten werden im Zeitablauf einfach schlechter: Verknüpfungen gehen verloren oder werden nicht erstellt, sie werden inkonsistent. Die Leistungsfähigkeit des Systems als Ganzes sinkt. Und das schlimmste: Je dementer die Daten sind, um so gravierendere Auswirkungen haben die (Fehl-)Entscheidungen, die man aufgrund dieser schlechten Datenbasis fällt.

Was hilft gegen Datendemenz?

Im Gegensatz zur echten Demenz gibt es bei Datendemenz Mittel und Wege, um sie zu heilen. Verknüpfungen können wieder hergestellt werden, verloren gegangene Daten neu angereichert. Die Eingangshürden sind jedoch hoch:

  • die Datenstruktur muss harmonisiert werden, damit die Datensätze überhaupt vergleichbar werden
  • alle relevanten Datensilos müssen zusammengeführt werden (und vorher definiert werden!)
  • die so aufbereiteten Daten müssen anhand einer Referenzdatenbank überprüft werden

Das ist ohne Hilfe von außen kaum möglich. Alleine den richtigen Ansatzpunkt zu finden ist schwierig.

Wie bei jedem Projekt ist es ratsam, zuerst den Status Quo anzuschauen. Das macht man am einfachsten über ein Datenaudit. BDS untersucht bei einem Datenaudit

  • die Vollständigkeit der Daten
  • die Datenqualität
  • das Veränderungspotenzial

und macht eine Dublettenprüfung.

Es gibt auch die Möglichkeit, weitere Informationen zu untersuchen wie Webseiten, Telefonnummern, Ansprechpartner. Diese sind aber nicht in unserem Standardaudit enthalten und bedürfen weiterer Vorgespräche.

Datenaudit: Datenqualität feststellen und bereinigen

In einem Standardaudit können alle Datenbänke überprüft werden, die B2B – Adressdaten betreffen wie CRM oder ERP-Daten, Buchhaltungsdaten oder auch die aus den letzten Messekontakten generierte Exceldatei. Wir gleichen diese Daten mit unserer B2B Data Plattform ab und können wertvolle Hinweise zur Weiterbearbeitung geben.

Am besten lässt sich das Audit über ein Beispiel erläutern. Das Beispiel hier ist ein echtes Kundenaudit, das genau so ausgewertet wurde:

Gesamtübersicht

Überblick Datenaudit: So steht es wirklich um Ihre Datenqualität

Im oberen Bereich sehen Sie die Anzahl Datensätze – hier 10.330, davon mit Rechtsform 7080 Stück (knapp 70%). Die restlichen Datensätze sind entweder private Personen oder nicht handelsregisterlich eingetragene Datensätze. Das sind dann Unternehmen wie z.B. der Malerbetrieb Mustermann oder Schneiderei Musterfrau

Als erstes wird eine rein postalische Prüfung durchgeführt. Hier liegt der Fokus rein auf Straße, Hausnummer, PLZ und Ort ohne Firmennamen. Wir …

  • … normieren die Adresse (einheitlich …str. statt …straße),
  • … korrigieren sie (z.B. statt Musterstr. ist es der Musterweg)
  • …. prüfen, ob die Adresse real existiert.

Im unteren Bereich finden sich Details zu den nicht gefunden Adressen. Diese sind nicht zwangsläufig falsch. Hier handelt es sich oft um ausländische Adressen – unsere B2B Data Plattform ist eine Referenzdatenbank für deutsche Adressen – oder um Großkunden PLZs.

Übersicht Firmenstatus

Datenqualität B2B: Übersicht Firmenstatus

Hier wird eine Übersicht über die Veränderungen im Bestand gegeben.

  • Negativ-Status:
    Das Unternehmen ist in dieser Form nicht mehr auf dem Markt.
  • Update:
    Hier gibt es in irgendeiner Form eine Veränderung z.B. einen Umzug oder eine Umbenennung
  • positive Bestätigung:
    Ja, diese Firma gibt es noch in dieser Art und Weise.
  • kein Treffer:
    Es gibt in unserer Datenbank keinen Treffer.

Die Quote bei “kein Treffer” hängt immer sehr von der Datenqualität und Kundenstruktur der eingeschickten Datei ab. Wenn der Anteil an Privatpersonen sehr hoch ist, dann ist dieser Anteil z.B. ebenfalls sehr hoch. Für diesen Fall haben wir Partner mit denen wir solche Datenbanken auch bearbeiten können.

Detailstatus

Datenqualität: Detailstatus - woran kranken die Adressen?

Im Detailstatus werden die oberen Positionen genauer aufgedröselt.

Wenn wir Ihre Daten bekommen, dann müssen wir Ihre Daten mit unseren abgleichen. Das heißt, wir verzahnen die beiden Datenbestände. Hier unterscheiden wir nach identischen, sicheren, wahrscheinlichen und unsicheren Treffern, je nach Qualität der Treffer. Ist die Schreibweise 100%ig identisch und es fehlt nur die Rechtsform, dann ist es ein sicherer Treffer. Identische und sichere Treffer kann man 1:1 übertragen bei einer späteren Bearbeitung. Die wahrscheinlichen und unsicheren Treffer muss man dann etwas differenzierter betrachten.

Konkret weisen wir hier aus:

  • Löschungen:
    Dies Unternehmen sind im Handelsregister erloschen und existieren nicht mehr. Hier sind das 2,6%
  • negative Bestätigung:
    Es gibt eine Bestätigung auf der Firmenwebseite, dass die Firma abgemeldet wurde.
  • Löschungsankündigung:
    Vorstufe zur Insolvenz
  • Insolvenz:
    Unternehmen, bei denen aufgrund von Zahlungsunfähigkeit oder Überschuldung ein Insolvenzverfahren durchgeführt wird
  • Verstorbene:
    Wenn ein Gewerbetreibender verstirbt, dann ist auch sein Gewerbe erloschen.
  • Verschmelzung:
    Steuerrechtlich definierter Begriff für Reorganisation von Gesellschaften (auch: Fusion). Es werden zwei oder mehrere Rechtsträger zusammengeführt bzw. ein Rechtsträger wird vollständig übernommen.
  • Sitzverlegung:
    Der Sitz einer Gesellschaft wird an eine neue postalische Adresse verlegt. Sitzverlegungen müssen dem Handelsregister mitgeteilt werden, wenn das Unternehmen im Handelsregister eingetragen ist.
  • Namensänderung:
    Im Handelsregister eingetragene Änderung des Firmennamens. Wenn sich die Firma Schmidt in Firma Müller umbenennt, dann liefern wir beide Informationen zurück.
  • positive Bestätigung:
    Treffer in unserer Datenbank
  • nicht im Bestand:
    Das sind Firmen, die wir mit unserem Bestand von 4,8 Millionen B2B – Adressen nicht treffen. Das sind wie oben schon kurz beschrieben häufig Unternehmen, die im Ausland sitzen oder Privatpersonen. Was ebenfalls häufig vorkommt: In unserem Bestand ist nicht jede einzelne Niederlassung/Lager/Filiale eines Unternehmens. Hier gibt es die Möglichkeit, diese Unternehmen durch eine Online Recherche zu bestätigen.

Dubletten

Datenbestand verunreinigt durch doppelte Adressen

Dubletten sind eines der großen Themen der Datenbereinigung. Ein Bestand ohne Dubletten hatten wir in unserer Arbeit tatsächlich noch nie. Gründe dafür wurden oben bereits ausführlich behandelt. Deshalb hier nur kurz, wie wir Dubletten ausweisen:

Wir sprechen von Dublettengruppen und Dubletten Datensätzen. Hier in diesem Audit waren es 124 Gruppen, in denen 265 Datensätze stecken. Zu einer Gruppe gehören immer mindestens 2 Datensätze, oft aber auch mehr. Wie die anschließende Bearbeitung von Dubletten aussieht, muss eng mit dem Unternehmen abgesprochen werden. Es gibt bewusst angelegte Dubletten, die bleiben müssen. Es gibt wahrscheinliche Dubletten, die überprüft werden müssen, etc. Hierfür haben wir ein sehr komfortables Dublettentool, das die konkrete Arbeit sehr erleichtert.

Wollen Sie jetzt wissen, wie es um Ihre Daten bestellt ist? Dann fordern Sie hier Ihr kostenloses Datenaudit an und erfahren wie es um Ihre Datenqualität bestellt ist …

Teilen

Autor

Florian Goldstein, Business Data Solutions GmbH & Co. KG
Florian Goldstein arbeitet seit mehr als 20 Jahren im Vertrieb erklärungsbedürftiger Produkte. Die letzten 15 Jahre davon gehen auf das Konto von Date…

Letzte Beiträge

Haben Sie einen effizienten Vertriebsprozess?

Haben Sie einen effizienten und effektiven Verkaufs-Prozess, der Interessenten in kürzest möglicher Zeit in Kunden verwandelt? Wir reden viel über Leadgenerierung, Marketing Automation, usw. Ist in Ihrem Unternehmen überhaupt definiert,