1.1.1.2.1. Dublettenanalyse

Die Dublettenanalyse ist ein zentrales Werkzeug zur Datenqualitätskontrolle – insbesondere bei großen Datenmengen und importierten Katalogen. Sie findet Dublettenkandidaten, beseitigt sie aber nicht automatisch, sondern bildet die Grundlage für nachgelagerte Bereinigungsprozesse.

Konkret bedeutet dies für den Ablauf:

  • Automatische Erzeugung von Clustern, wobei jedes Cluster Teile enthält, die zueinander ähnlich sind.

  • Nachgeschalteter manueller Annotationsprozess zur Bestimmung von Main Parts und Duplicates.

  • Export in CSV-Datei

Das folgende Beispiel soll einen kleinen Überblick zur Funktionsweise geben.

  1. Öffnen Sie das Dashboard und wählen Sie den Menüpunkt Duplicate Analysis.

  2. Klicken Sie auf den Button Create Report.

    -> Der Einstellungsdialog wird geöffnet.

  3. Füllen Sie die einzelnen Punkte aus.

    Wählen Sie insbesondere das Such- und das Zielverzeichnis.

    Bestimmen Sie die minimale Ähnlichkeit.

    Klicken Sie abschließend auf Create report.

    -> Die Karte des neu erstellten Reports wird angezeigt.

  4. Öffnen Sie den Report mit einem Klick.

    Die Reportseite gliedert sich folgendermaßen:

    Der Header enthält den Namen des Reports, einen Filterbereich und einen Export CSV Button.

    Der Hauptbereich ist untergliedert in Strukturbaum [links], Ergebnisse [mittig] und einen Überblick [rechts] (wird angepasst entsprechend der Arbeiten an den einzelnen Clustern).

  5. Klicken Sie auf ein Cluster, um es zu öffnen.

    Alle Teile eines Clusters starten als nicht annotierte Kandidaten (Main = 0 und Duplicates = 0). Es existiert noch kein Main Part.

  6. Öffnen Sie ein Cluster durch Anklicken. Die Duplicate-Buttons sind deaktiviert, solange kein Main Part existiert.

  7. Bestimmen Sie ein Main Part (Dublettenkandidat → Main Part)

    Ein Kandidat wird zum Main Part, indem man:

    • auf den Annotation-Button Main Part klickt

      -> Der Button wird mit der blauen Grundfarbe ausgefüllt.

      ->

      oder

    • den Kandidaten per Drag & Drop in die Main Part-Dropzone zieht.

      Gewünschten Kandidaten in die Drag & Drop Zone ziehen

      Gewünschten Kandidaten in die Drag & Drop Zone ziehen

      -> Der Kandidat ist nun Main Part; d.h. der Button ist ausgefüllt und das Main Part wird rechts im Bereich Duplicates angezeigt.

      Ergebnis: Der Kandidat ist nun Main Part.

      Ergebnis: Der Kandidat ist nun Main Part.

  8. Zuweisung von Dubletten

    Ein Kandidat kann als Dublette annotiert werden durch

    Klick auf den Duplicate-Button

    -> Der Button wird mit der grünen Grundfarbe ausgefüllt.

    ->

    oder indem man den Kandidaten per Drag & Drop auf ein bestehendes Main Part zieht.

    Wenn mehrere Main Part existieren, öffnet sich eine Auswahlliste, um das Ziel Main Part zu wählen.

    In jedem Fall ist der Button nun in grüner Farbe voll ausgefüllt und die Dublette wird rechts im Bereich Duplicates unter dem Main Part angezeigt.

  9. Verfahren Sie nun auf diese Weise mit allen übrigen Dublettenkandidaten:

    • Mehrere Main Part sind möglich.

    • Ein Main Part muss nicht zwingend Dubletten haben.

  10. Ziel ist, dass ein Cluster als Completed gesetzt ist, also nur noch Main Parts und zugewiesene Dubletten enthält.

  11. Im Strukturbaum links haben Sie jederzeit die Kontrolle über den Fortschritt.

    Die Farben im Baum helfen, offene Cluster schnell zu finden und gezielt problematische Cluster erneut zu öffnen:

    • Weiß = noch kein Cluster abgeschlossen

    • Grau = Hier wurde mind. ein Cluster abgeschlossen, aber es müssen noch weitere bearbeitet werden.

    • Gelb = Hier befindet sich ein ToCheck Teil, hier muss auf jeden Fall weiter vervollständigt werden.

    • Grün = Alles abgeschlossen

      Aber Gelb schlägt Grün, d.h., wenn alle Cluster abgeschlossen sind (Grün), es aber ein "Zu Prüfen" Teil in einem dieser Cluster gibt (Gelb), dann wird der Ordner gelb markiert.

  12. Via Vergleich Button können jederzeit Teile in den Vergleich geladen werden.

    Operationen im Vergleich und in der Dublettenanalyse laufen synchron.

    Der Vergleich-Button des Clusters selbst (ganz oben) und der auf der rechten Seite (Stammteil) ersetzen alle Teile, die bis dahin im Teilevergleich sind.

    Die Vergleich-Buttons in der Teileliste (Dublettenkandidaten des Clusters) fügen das jeweilige Teil einzeln hinzu, ohne die vorherigen zu löschen.

    Die Grundprinzipien beim Teilevergleich von Dubletten sind dieselben wie beim Standard; ein paar Features sind hier dazugekommen:

    • Es können bis zu 10 Teile geladen werden (im Standard nur 4)

    • Via Icons ganz oben können Teile annotiert werden.

  13. Mit Klick auf den Button Export CSV können Sie abschließend für alle Cluster (Option All) oder auch nur für Zwischenstände (Option Current view) einen Export durchführen.

Details finden Sie unter Abschnitt 2.2, „ Dublettenanalyse “ in ENTERPRISE 3Dfindit (Professional) - Administration.