Skip to Main Content (Press Enter)

Logo CNR
  • ×
  • Home
  • People
  • Outputs
  • Organizations
  • Expertise & Skills

UNI-FIND
Logo CNR

|

UNI-FIND

cnr.it
  • ×
  • Home
  • People
  • Outputs
  • Organizations
  • Expertise & Skills
  1. Outputs

Calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici in base al profilo energetico del segnale

Chapter
Publication Date:
2010
abstract:
Presentiamo qui una procedura automatica (RateEstimator) per il calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici a partire dal profilo energetico del segnale. La ricerca di nuclei sillabici a partire dall'individuazione dei picchi nel profilo dell'intensità del segnale da cui ricavare la misura dello speech rate rappresenta una tecnica già utilizzata in precedenti studi (De Jong & Wempe, 2009). Tuttavia, sebbene tale approccio risulti sufficientemente performante nella sua applicazione, la procedura richiede una certa prudenza nell'accettare i picchi di intensità come espressione dei nuclei sillabici. La ragione è prevalentemente connessa alla normale e diffusa presenza di picchi anomali nel segnale che spingono l'algoritmo di ricerca di nuclei sillabici a partire dall'intensità a rilevare soltanto i picchi di intensità più prominenti a discapito delle sillabe non accentate. Le prestazioni di algoritmi come quelli a cui si fa riferimento possono essere migliorate con l'introduzione di un modulo di Voice Activity Detection (VAD) che consente di attenuare alcune restrizioni senza incorrere nel rischio di introdurre artefatti come nuclei sillabici. Sebbene vi sia accordo sul fatto che l'individuazione dei picchi di prominenza sia di per sé sufficiente al calcolo dello speech rate, crediamo che lo sviluppo di un approccio in grado di rilevare sillabe secondarie senza che questo risulti affetto da rumore ed artefatti in genere presenti nel parlato possa darci l'opportunità di investigare a fondo strategie comunicative più complesse. L'approccio che di seguito presenteremo, utilizza un VAD tradizionale basato sul pitch associato all'Harmonic-Noise Ratio (HNR) per identificare i nuclei sillabici con l'aggiunta di un controllo sui salti di ottava (octave jumps) per tenere sotto controllo eventuali errori di inserimento. Abbiamo infine modellato una serie di artefatti causa principale sia di errori di introduzione che di elisione per essere in grado di rigettare o accettare correttamente candidati a nuclei sillabici. L'algoritmo presentato sarà testato su due corpora di riferimento, SPEECON (Siemund et alii, 2000) ed EURmotion (Galatà & Romito, 2010). I risultati conseguiti, comparati con quelli ottenuti dall'applicazione dell'algoritmo di De Jong & Wempe (2009) sugli stessi materiali, rivelano un sostanziale miglioramento e una maggiore affidabilità frutto delle procedure da noi adottate per il rilevamento dei nuclei sillabici con ricadute positive sul calcolo dello speech rate su grandi moli di parlato.
Iris type:
02.01 Contributo in volume (Capitolo o Saggio)
Keywords:
speech rate; calcolo automatico; profilo energetico segnale
List of contributors:
Galata', Vincenzo
Authors of the University:
GALATA' VINCENZO
Handle:
https://iris.cnr.it/handle/20.500.14243/415438
Book title:
Parlare con le persone, parlare alle macchine: la dimensione interazionale della comunicazione verbale
  • Use of cookies

Powered by VIVO | Designed by Cineca | 26.5.0.0 | Sorgente dati: PREPROD (Ribaltamento disabilitato)