Data di Pubblicazione:
2006
Abstract:
Il sistema utilizza una tecnica incrementale per la ricerca di duplicati. In pratica, viene costruito un indice basato su chiavi hash che permette di associare tupla ad un bucket. La particolarità è che la chiave hash utilizzata permette di associare duplicati nello stesso bucket. Di conseguenza, la scansione dellindice permette di identificare i duplicati. Il sistema è scritto in Java ed implementa una tecnica di hashing gerarchica basata sulla nozione di minwise independent permutation.
Tipologia CRIS:
05.12 Altro
Keywords:
deduplication; clustering; locally sensitive hashing
Elenco autori:
Folino, FRANCESCO PAOLO; Manco, Giuseppe
Link alla scheda completa: