1.1.1.2.1.  Analisi dei duplicati

L'analisi dei duplicati è uno strumento centrale per il controllo della qualità dei dati, soprattutto per grandi quantità di dati e cataloghi importati. Individua i candidati duplicati, ma non li elimina automaticamente; costituisce invece la base per i processi di pulizia a valle.

In termini concreti, ciò significa per il processo:

  • Generazione automatica di cluster, dove ogni cluster contiene parti simili tra loro.

  • Processo di annotazione manuale a valle per determinare le parti principali e i duplicati.

  • Esportazione in file CSV

L'esempio seguente fornisce una breve panoramica del funzionamento.

  1. Aprire il dashboard e selezionare la voce di menu Analisi duplicata.

  2. Fare clic sul pulsante Crea rapporto.

    Figura 1.19. 

    -> Si apre la finestra di dialogo delle impostazioni.

  3. Compilare i singoli punti.

    In particolare, selezionare la directory di ricerca e la directory di destinazione.

    Determinare la somiglianza minima.

    Figura 1.20. 

    Infine, fare clic su Crea rapporto.

    -> Viene visualizzata la mappa del rapporto appena creato.

    Figura 1.21. 

  4. Aprire il rapporto con un solo clic.

    La pagina del rapporto è organizzata come segue:

    L'intestazione contiene il nome del report, un'area di filtraggio e un pulsante di esportazione CSV.

    L'area principale è suddivisa in struttura ad albero [a sinistra], risultati [al centro] e panoramica [a destra] (sarà adattata in base al lavoro sui singoli cluster).

    Figura 1.22. 

  5. Fare clic su un cluster per aprirlo.

    Figura 1.23. 

    Tutte le parti di un cluster iniziano come candidati non annotati (Principale = 0 e Duplicati = 0). Non esiste ancora una parte principale.

  6. Aprire un cluster facendo clic su di esso. I pulsanti di duplicazione sono disattivati finché non esiste una parte principale.

    Figura 1.24. 

  7. Determinare una parte principale (candidato duplicato → parte principale)

    Un candidato diventa Parte Principale da:

    • fa clic sul pulsante di annotazione Parte principale

      -> Il pulsante viene riempito con il colore di base blu.

      ->

      o

    • trascinare e rilasciare il candidato nella zona di rilascio della parte principale.

      Trascinare il candidato desiderato nella zona di trascinamento.

      Figura 1.25. Trascinare il candidato desiderato nella zona di trascinamento.

      -> Il candidato è ora la parte principale, cioè il pulsante è compilato e la parte principale è visualizzata a destra nell'area Duplicati.

      Risultato: Il candidato è ora Parte principale.

      Figura 1.26. Risultato: Il candidato è ora Parte principale.

  8. Assegnazione di duplicati

    Un candidato può essere annotato come duplicato da

    Fare clic sul pulsante Duplica [Duplicate]

    -> Il pulsante viene riempito con il colore di base verde.

    ->

    oppure trascinando il candidato su una parte principale esistente.

    Figura 1.27. 

    Se esistono più parti principali, si apre un elenco di selezione per selezionare la parte principale di destinazione.

    Figura 1.28. 

    In ogni caso, il pulsante è ora completamente riempito di verde e il duplicato è visualizzato a destra nell'area Duplicati sotto la Parte principale.

    Figura 1.29. 

  9. Procedere ora allo stesso modo con tutti gli altri candidati duplicati:

    • Sono possibili diverse parti principali.

    • Una parte principale non deve necessariamente avere dei duplicati.

  10. L'obiettivo è che un cluster sia impostato come completato, cioè contenente solo le parti principali e i duplicati assegnati.

    Figura 1.30. 

  11. È possibile controllare l'avanzamento in qualsiasi momento nella struttura ad albero a sinistra.

    Figura 1.31. 

    I colori della struttura aiutano a trovare rapidamente i cluster aperti e a riaprire quelli problematici:

    • Bianco = nessun cluster ancora completato

    • Grigio = Almeno un cluster è stato completato qui, ma altri devono ancora essere elaborati.

    • Giallo = C'è una parte ToCheck che deve essere completata in ogni caso.

    • Verde = Tutto completato

      Ma il giallo batte il verde, cioè se tutti i cluster sono completati (verde), ma c'è una parte "Da controllare" in uno di questi cluster (giallo), allora la cartella è contrassegnata dal giallo.

  12. Via Confronto Button può caricare parti nel confronto in qualsiasi momento .

    Le operazioni di confronto e di analisi dei duplicati vengono eseguite in modo sincrono.

    Il pulsante di confronto del cluster stesso (in alto) e quello sul lato destro (parte principale) sostituiscono tutti i pezzi presenti nel confronto fino a quel momento.

    I pulsanti di confronto nell'elenco dei pezzi (candidati duplicati del cluster) aggiungono il rispettivo pezzo singolarmente senza cancellare quelli precedenti.

    Figura 1.32. 

    I principi di base per il confronto di parti duplicate sono gli stessi dello standard; qui sono state aggiunte alcune caratteristiche:

    Figura 1.33. 

    • Possibilità di caricare fino a 10 pezzi (solo 4 di serie)

    • Le parti possono essere annotate tramite le icone in alto.

  13. Facendo clic sul pulsante Esporta CSV, è possibile eseguire un'esportazione per tutti i cluster ( opzione Tutti ) o solo per gli stati intermedi ( opzione Vista corrente ).

    Figura 1.34. 

I dettagli sono riportati nella sezione Sezione 2.2, “ Analisi dei duplicati ” in ENTERPRISE 3Dfindit (Professional) - Amministrazione.