Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Altro Prodotto di Ricerca

Data di Pubblicazione:

2006

Abstract:

Il sistema utilizza una tecnica incrementale per la ricerca di duplicati. In pratica, viene costruito un indice basato su chiavi hash che permette di associare tupla ad un bucket. La particolarità è che la chiave hash utilizzata permette di associare duplicati nello stesso bucket. Di conseguenza, la scansione dellindice permette di identificare i duplicati. Il sistema è scritto in Java ed implementa una tecnica di hashing gerarchica basata sulla nozione di minwise independent permutation.

Tipologia CRIS:

05.12 Altro

Keywords:

deduplication; clustering; locally sensitive hashing

Elenco autori:

Folino, FRANCESCO PAOLO; Manco, Giuseppe

Autori di Ateneo:

FOLINO FRANCESCO PAOLO

MANCO GIUSEPPE

Link alla scheda completa:

https://iris.cnr.it/handle/20.500.14243/455642