2.2.  Analisi dei duplicati

L'analisi dei duplicati è uno strumento centrale per il controllo della qualità dei dati, soprattutto per grandi quantità di dati e cataloghi importati. Individua i candidati duplicati, ma non li elimina automaticamente; costituisce invece la base per i processi di pulizia a valle.

In termini concreti, ciò significa per il processo:

  • Generazione automatica di cluster, dove ogni cluster contiene parti simili tra loro.

  • Processo di annotazione manuale a valle per determinare le parti principali e i duplicati.

  • Esportazione in file CSV