Skip to Main Content (Press Enter)

Logo CNR
  • ×
  • Home
  • People
  • Outputs
  • Organizations
  • Expertise & Skills

UNI-FIND
Logo CNR

|

UNI-FIND

cnr.it
  • ×
  • Home
  • People
  • Outputs
  • Organizations
  • Expertise & Skills
  1. Outputs

Recenti sviluppi di SONIC per l italiano: riconoscimento automatico del parlato infantile

Conference Paper
Publication Date:
2010
abstract:
In questo lavoro vengono descritti i risultati dei più recenti esperimenti di riconoscimento automatico di parlato infantile effettuati, mediante l'utilizzazione del sistema denominato SONIC, su un corpus di parlato letto da bambini di età compresa fra i 7 e i 13 anni. Il corpus utilizzato è stato raccolto presso alcune scuole del Trentino da parte dell'ITCIRST (Giuliani & Gerosa, 2003) ora FBK (Fondazione Bruno Kessler), nell'ambito di un progetto europeo denominato PF-STAR. Il tasso di errore di riconoscimento iniziale di 15.1% per un insieme di 33 unità fonetiche (21,8% considerando un insieme di 40 unità fonetiche) è stato successivamente ridotto al 12.2% (18,6% considerando 40 unità) utilizzando una combinazione delle più aggiornate tecniche di adattamento comprendenti la normalizzazione di lunghezza del tratto vocale (Vocal Tract Lenght Normalization VTLN), la normalizzazione della varianza dei coefficienti Cepstrali (Cepstral coefficients Variance Normalization, CVN) e l'utilizzazione di modelli fonetici addestrati in modalità indipendente dal parlante utilizzando le più recenti strategie iterative denominate Structural MAP Linear Regression (SMAPLR) e Speaker Adaprive Training (SAT). Mentre il tasso di errore del sistema allenato su voci di bambini è paragonabile e addirittura migliore di quello ottenuto da sistemi simili sullo stesso corpus (ad esempio paragonabile al 22.7% ottenuto da un sistema analogo con 28 unità fonetiche come quello utilizzato in (Giuliani & Gerosa, 2003)), esiste ancora un significativo margine di miglioramento per un sistema che utilizzi modelli acustici allenati su parlato adulto e utilizzati per decodificare parlato infantile. Infatti quando sono state applicate entrambe le tecniche VTLN e SMAPLR in una condizione di disallineamento adulti/bambini il sistema finale ha ottenuto un tasso di errore fonetico del 19.3% dimostrando di ridurre l'errore fonetico iniziale del 28%. Ciò nonostante, persiste ancora un notevole 30% di differenza relativa fra l'utilizzazione di modelli acustici allenati su parlato adulto e modelli acustici allenati su parlato infantile per la decodifica di quest'ultimo.
Iris type:
04.01 Contributo in Atti di convegno
Keywords:
SONIC; Speech Recognition; Parlato Infantile
List of contributors:
Cosi, Piero
Handle:
https://iris.cnr.it/handle/20.500.14243/130356
Book title:
"La dimensione temporale del parlato" - AISV 2009, 5th Conference of Associazione Italiana di Scienze della Voce
  • Overview

Overview

URL

http://www.pholab.uzh.ch/labor/aisv2009/programma/AISV2009program4.pdf
  • Use of cookies

Powered by VIVO | Designed by Cineca | 26.5.0.0 | Sorgente dati: PREPROD (Ribaltamento disabilitato)