Zum Inhalt springen
Procari Lexikon Dublettenerkennung
Einkaufslexikon

Dublettenerkennung

Dublettenerkennung

Dublettenerkennung identifiziert mehrfach vorhandene Datensätze für denselben realen Sachverhalt — typischerweise denselben Lieferanten, der unter leicht abweichenden Schreibweisen, Adressen oder Steuernummern mehrfach im System geführt wird. Sie ist der wichtigste technische Hebel zur Verbesserung der Lieferantenstammqualität.

Detaillierte Erklärung

Dublettenerkennung kombiniert deterministische Regeln (exakte Übereinstimmung in USt-IdNr., DUNS-Nummer, IBAN) mit probabilistischen Verfahren für unscharfe Vergleiche. Die wichtigsten Algorithmen: Levenshtein-Distance (1965, Wladimir Lewenstein) misst die minimale Anzahl an Einfügungen, Löschungen oder Ersetzungen zur Überführung einer Zeichenkette in eine andere — ideal für lange Strings wie Firmenadressen. Jaro-Winkler (1989, William Winkler beim US Census Bureau) gewichtet Übereinstimmungen am Stringanfang höher und ist robuster gegen Tippfehler in Firmennamen. Soundex (1918, Robert Russell) und der präzisere Cologne-Phonetic-Algorithmus (1969, Hans Joachim Postel) erkennen phonetische Ähnlichkeiten — "Mayer", "Maier", "Meyer" werden als identisch klassifiziert. In der Praxis wird ein gewichteter Score gebildet: 40 % USt-IdNr., 25 % Firmenname (Jaro-Winkler), 20 % Adresse (Levenshtein), 15 % Telefon/IBAN. Datensätze über 0,90 Score werden automatisch zusammengeführt (siehe [[match-merge-regeln]]), Werte zwischen 0,75 und 0,90 gehen in einen manuellen Review beim [[data-steward]]. Eine Auswertung der TU München (Lehrstuhl Wirtschaftsinformatik, 2023) an 14 mittelständischen DACH-Unternehmen zeigt: In ungereinigten Lieferantenstämmen liegen typische Dublettenraten zwischen 8 % und 15 %, in Einzelfällen bis 24 %. Tools wie Informatica MDM, SAP Data Services, Talend Data Quality, Ataccama ONE oder Open-Source-Frameworks wie Splink (UK Ministry of Justice) decken diese Verfahren standardmäßig ab.

Praxisbeispiel (konkretes Einkaufsszenario)

Ein Pumpenhersteller aus Hessen mit 720 Mitarbeitern führt 2025 eine Dublettenanalyse für 8.420 aktive Lieferantenstammsätze durch. Eingesetztes Verfahren: hybrider Match-Score aus USt-IdNr.-Abgleich, Jaro-Winkler auf Firmennamen, Levenshtein auf Postanschrift und IBAN-Vergleich. Ergebnis nach 14 Tagen Laufzeit: 1.180 mutmaßliche Dubletten (14,0 %), davon 640 mit Score über 0,92 (automatische Zusammenführung), 540 zwischen 0,78 und 0,92 (manueller Review). Beispielfall: "Müller Maschinenbau GmbH, Frankfurter Str. 14, Darmstadt" und "Mueller Maschb. GmbH, Frankfurter Straße 14, 64283 Darmstadt" — Jaro-Winkler-Score auf Name 0,89, Levenshtein-Distance auf Adresse 7, gleiche USt-IdNr. — eindeutige Dublette. Nach Konsolidierung sinkt der aktive Stamm auf 7.240 Sätze. Im Spend-Cube tauchen 14 Lieferanten erstmals in der A-Klasse auf, die vorher in jeweils zwei oder drei Sätzen aufgeteilt waren — das beeinflusst direkt die Bündelungsstrategie für 2026.

Typische Fehler & Verhandlungskontext

Der häufigste Fehler ist ein zu strenger Schwellenwert — wer nur exakte Übereinstimmungen zulässt, findet 30 % der echten Dubletten nicht; wer zu locker konfiguriert, produziert False-Positives und beschäftigt Stewards mit Klärfällen. Zweitens wird Dublettenerkennung oft als Einmalprojekt verstanden — ohne kontinuierlichen Match-Lauf bei jedem Neuanlage-Vorgang ist die Bereinigung in 18 bis 36 Monaten zurück auf Ausgangsniveau. Drittens werden phonetische Verfahren übersehen: Ein deutsches Match-Set, das nur Levenshtein verwendet, übersieht die Mayer/Maier/Meyer-Familie systematisch. Im Verhandlungskontext entsteht der Hebel direkt: Wer einem Lieferanten im Jahresgespräch ein konsolidiertes Volumen über alle Werke vorlegt — vorher in vier Stammsätzen verstreut — verbessert die Verhandlungsposition typischerweise um 1 bis 2 Prozentpunkte Konditionsverbesserung. Auch in Compliance-Prüfungen ist Dublettenfreiheit kritisch: Ein Lieferant unter zwei Stammsätzen kann eine Embargo-Sperre auf einen Stammsatz haben, während Bestellungen über den anderen weiterlaufen — ein klarer Verstoß gegen die EU-Dual-Use-Verordnung 2021/821.

Verwandte Begriffe

[[stammdatenmanagement-mdm]], [[datenqualitaet-einkauf]], [[data-governance-einkauf]], [[datenmodell-einkauf]], [[datenkatalog-einkauf]], [[etl-prozess-einkauf]], [[data-steward]], [[klassifizierungsquote]], [[golden-record]], [[match-merge-regeln]], [[datenbereinigung-einkauf]], [[master-data-governance]], [[datenowner]], [[datenqualitaetsbericht]]

Alle 1.460+ Begriffe als PDF

Das komplette Procari Einkaufslexikon — kostenlos per Email.

PDF anfordern →