Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Other Research Product

Publication Date:

2006

abstract:

Il sistema utilizza una tecnica incrementale per la ricerca di duplicati. In pratica, viene costruito un indice basato su chiavi hash che permette di associare tupla ad un bucket. La particolarità è che la chiave hash utilizzata permette di associare duplicati nello stesso bucket. Di conseguenza, la scansione dellindice permette di identificare i duplicati. Il sistema è scritto in Java ed implementa una tecnica di hashing gerarchica basata sulla nozione di minwise independent permutation.

Iris type:

05.12 Altro

Keywords:

deduplication; clustering; locally sensitive hashing

List of contributors:

Folino, FRANCESCO PAOLO; Manco, Giuseppe

Authors of the University:

FOLINO FRANCESCO PAOLO

MANCO GIUSEPPE

Handle:

https://iris.cnr.it/handle/20.500.14243/455642