Recenti sviluppi di SONIC per l italiano: riconoscimento automatico del parlato infantile

Conference Paper

Publication Date:

2010

abstract:

In questo lavoro vengono descritti i risultati dei più recenti esperimenti di riconoscimento automatico di parlato infantile effettuati, mediante l'utilizzazione del sistema denominato SONIC, su un corpus di parlato letto da bambini di età compresa fra i 7 e i 13 anni. Il corpus utilizzato è stato raccolto presso alcune scuole del Trentino da parte dell'ITCIRST (Giuliani & Gerosa, 2003) ora FBK (Fondazione Bruno Kessler), nell'ambito di un progetto europeo denominato PF-STAR. Il tasso di errore di riconoscimento iniziale di 15.1% per un insieme di 33 unità fonetiche (21,8% considerando un insieme di 40 unità fonetiche) è stato successivamente ridotto al 12.2% (18,6% considerando 40 unità) utilizzando una combinazione delle più aggiornate tecniche di adattamento comprendenti la normalizzazione di lunghezza del tratto vocale (Vocal Tract Lenght Normalization VTLN), la normalizzazione della varianza dei coefficienti Cepstrali (Cepstral coefficients Variance Normalization, CVN) e l'utilizzazione di modelli fonetici addestrati in modalità indipendente dal parlante utilizzando le più recenti strategie iterative denominate Structural MAP Linear Regression (SMAPLR) e Speaker Adaprive Training (SAT). Mentre il tasso di errore del sistema allenato su voci di bambini è paragonabile e addirittura migliore di quello ottenuto da sistemi simili sullo stesso corpus (ad esempio paragonabile al 22.7% ottenuto da un sistema analogo con 28 unità fonetiche come quello utilizzato in (Giuliani & Gerosa, 2003)), esiste ancora un significativo margine di miglioramento per un sistema che utilizzi modelli acustici allenati su parlato adulto e utilizzati per decodificare parlato infantile. Infatti quando sono state applicate entrambe le tecniche VTLN e SMAPLR in una condizione di disallineamento adulti/bambini il sistema finale ha ottenuto un tasso di errore fonetico del 19.3% dimostrando di ridurre l'errore fonetico iniziale del 28%. Ciò nonostante, persiste ancora un notevole 30% di differenza relativa fra l'utilizzazione di modelli acustici allenati su parlato adulto e modelli acustici allenati su parlato infantile per la decodifica di quest'ultimo.

Iris type:

04.01 Contributo in Atti di convegno

Keywords:

SONIC; Speech Recognition; Parlato Infantile

List of contributors:

Cosi, Piero

Handle:

https://iris.cnr.it/handle/20.500.14243/130356

Book title:

"La dimensione temporale del parlato" - AISV 2009, 5th Conference of Associazione Italiana di Scienze della Voce

Overview

URL

http://www.pholab.uzh.ch/labor/aisv2009/programma/AISV2009program4.pdf

Recenti sviluppi di SONIC per l italiano: riconoscimento automatico del parlato infantile

Cosi, Piero

Overview

URL