Skip to Main Content (Press Enter)

Logo CNR
  • ×
  • Home
  • Persone
  • Pubblicazioni
  • Strutture
  • Competenze

UNI-FIND
Logo CNR

|

UNI-FIND

cnr.it
  • ×
  • Home
  • Persone
  • Pubblicazioni
  • Strutture
  • Competenze
  1. Pubblicazioni

Calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici in base al profilo energetico del segnale

Capitolo di libro
Data di Pubblicazione:
2010
Abstract:
Presentiamo qui una procedura automatica (RateEstimator) per il calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici a partire dal profilo energetico del segnale. La ricerca di nuclei sillabici a partire dall'individuazione dei picchi nel profilo dell'intensità del segnale da cui ricavare la misura dello speech rate rappresenta una tecnica già utilizzata in precedenti studi (De Jong & Wempe, 2009). Tuttavia, sebbene tale approccio risulti sufficientemente performante nella sua applicazione, la procedura richiede una certa prudenza nell'accettare i picchi di intensità come espressione dei nuclei sillabici. La ragione è prevalentemente connessa alla normale e diffusa presenza di picchi anomali nel segnale che spingono l'algoritmo di ricerca di nuclei sillabici a partire dall'intensità a rilevare soltanto i picchi di intensità più prominenti a discapito delle sillabe non accentate. Le prestazioni di algoritmi come quelli a cui si fa riferimento possono essere migliorate con l'introduzione di un modulo di Voice Activity Detection (VAD) che consente di attenuare alcune restrizioni senza incorrere nel rischio di introdurre artefatti come nuclei sillabici. Sebbene vi sia accordo sul fatto che l'individuazione dei picchi di prominenza sia di per sé sufficiente al calcolo dello speech rate, crediamo che lo sviluppo di un approccio in grado di rilevare sillabe secondarie senza che questo risulti affetto da rumore ed artefatti in genere presenti nel parlato possa darci l'opportunità di investigare a fondo strategie comunicative più complesse. L'approccio che di seguito presenteremo, utilizza un VAD tradizionale basato sul pitch associato all'Harmonic-Noise Ratio (HNR) per identificare i nuclei sillabici con l'aggiunta di un controllo sui salti di ottava (octave jumps) per tenere sotto controllo eventuali errori di inserimento. Abbiamo infine modellato una serie di artefatti causa principale sia di errori di introduzione che di elisione per essere in grado di rigettare o accettare correttamente candidati a nuclei sillabici. L'algoritmo presentato sarà testato su due corpora di riferimento, SPEECON (Siemund et alii, 2000) ed EURmotion (Galatà & Romito, 2010). I risultati conseguiti, comparati con quelli ottenuti dall'applicazione dell'algoritmo di De Jong & Wempe (2009) sugli stessi materiali, rivelano un sostanziale miglioramento e una maggiore affidabilità frutto delle procedure da noi adottate per il rilevamento dei nuclei sillabici con ricadute positive sul calcolo dello speech rate su grandi moli di parlato.
Tipologia CRIS:
02.01 Contributo in volume (Capitolo o Saggio)
Keywords:
speech rate; calcolo automatico; profilo energetico segnale
Elenco autori:
Galata', Vincenzo
Autori di Ateneo:
GALATA' VINCENZO
Link alla scheda completa:
https://iris.cnr.it/handle/20.500.14243/415438
Titolo del libro:
Parlare con le persone, parlare alle macchine: la dimensione interazionale della comunicazione verbale
  • Utilizzo dei cookie

Realizzato con VIVO | Designed by Cineca | 26.5.0.0 | Sorgente dati: PREPROD (Ribaltamento disabilitato)