2.2. Dublettenanalyse

Die Dublettenanalyse ist ein zentrales Werkzeug zur Datenqualitätskontrolle – insbesondere bei großen Datenmengen und importierten Katalogen. Sie findet Dublettenkandidaten, beseitigt sie aber nicht automatisch, sondern bildet die Grundlage für nachgelagerte Bereinigungsprozesse.

Konkret bedeutet dies für den Ablauf:

  • Automatische Erzeugung von Clustern, wobei jedes Cluster Teile enthält, die zueinander ähnlich sind.

  • Nachgeschalteter manueller Annotationsprozess zur Bestimmung von Main Parts und Duplicates.

  • Export in CSV-Datei