Data di Pubblicazione:
2020
Abstract:
Enormi banche dati che immagazzinano informazioni genomiche vengono creati e ingegnerizzati per fare analisi complete, approfondite e su larga scala degli esseri umani e delle loro malattie. Ciò apre la strada a nuovi approcci significativi in medicina, ma pone anche grandi sfide per l'archiviazione, l'elaborazione e la trasmissione di quantità così elevate di dati in conformità con le recenti normative in materia di privacy degli utenti.
Questo lavoro concerne la progettazione e implementazione di ER-index, un nuovo indice full-text in minute space che è stato ottimizzato per la ricerca di pattern su dati genomici compressi e cifrati utilizzando una sequenza di riferimento, che integra un indice precedente per la genomica senza riferimenti. Grazie a un modello di crittografia multiutente e multi-chiavi, un singolo ER-index può memorizzare le sequenze relative a una vasta popolazione di individui in modo che gli utenti possano eseguire operazioni di ricerca direttamente sui dati compressi e solo sulle sequenze a cui è stato loro concesso accesso.
I test eseguiti su tre diverse piattaforme informatiche mostrano che l'indice ER ottiene rapporti di compressione e tempi di ricerca molto buoni, superando in molti casi uno strumento di riferimento che si è dimostrato quasi ottimale in termini di tempi di elaborazione e spazio di memorizzazione richiesti, e che non implementa la crittografia.
Il codice sorgente C ++ di ER-index, oltre a script e dati per poterne valutare le prestazioni, sono disponibili su:
https://github.com/EncryptedIndexes/erindex.
Tipologia CRIS:
01.01 Articolo in rivista
Keywords:
Data storage and retrieval; Compressive genomics; Full-text index
Elenco autori:
Schmid, Giovanni
Link alla scheda completa:
Pubblicato in: