2.2.  Analyse des doublons

L'analyse des doublons est un outil central pour le contrôle de la qualité des données - en particulier pour les grandes quantités de données et les catalogues importés. Elle trouve les candidats aux doublons, mais ne les élimine pas automatiquement, elle constitue la base des processus de nettoyage en aval.

Concrètement, cela signifie pour le déroulement :

  • Création automatique de clusters, chaque cluster contenant des parties qui se ressemblent.

  • Processus d'annotation manuelle en aval pour déterminer les Main Parts et les Duplicates.

  • Exportation vers un fichier CSV