Formalizzazione, strutturazione e standardizzazione in lessicografia computazionale: un esempio italiano
Contributo in Atti di convegno
Data di Pubblicazione:
2010
Abstract:
Descrivere una lingua naturale significa raccogliere un numero sterminato di informazioni. In effetti, per la loro ricchezza e complessità, le lingue naturali richiedono una descrizione linguistica a vari livelli. Per la lingua scritta, ad esempio, le informazioni morfologiche, sintattiche e semantiche sono essenziali. Ad ogni livello di conoscenza linguistica, esiste inoltre un'infinità di informazioni idiosincratiche che, sommate alle proprietà condivise da intere classi di parole, rendono la mole complessiva dei dati ingestibile senza un'adeguata strutturazione. Perché un utente umano possa utilizzare, anche in minima parte, questi dati, la descrizione linguistica deve essere coerente, ordinata e formulata in un metalinguaggio descrittivo esplicito. L'essere umano, tuttavia, possiede la capacità di fare inferenze e di interpretare contenuti non immediatamente afferrabili; se invece la gestione e l'uso di una descrizione linguistica sono demandati ad un elaboratore, i suddetti requisiti diventano imprescindibili. Nell'ambito delle Tecnologie del Linguaggio, lo sviluppo di applicazioni richiede un'infrastruttura di cui le risorse lessicali costituiscono l'elemento fondamentale. I sistemi di reperimento ed estrazione di informazioni da corpora, di question answering, di traduzione automatica, ecc. presuppongono, infatti, l'accesso a vasti depositi di conoscenza lessicale espressa in un linguaggio formale sufficientemente ricco in capacità espressive, sotto forma di una rappresentazione rigorosamente strutturata, univoca e computazionalmente trattabile. La formalizzazione non può tuttavia essere estesa a tutti gli aspetti della lingua; d'altra parte, non tutte le proprietà formalizzabili sono pertinenti ad ogni tipo di applicazione. La formalizzazione deve quindi avvenire in funzione di un obiettivo preciso. Trattamento del linguaggio generico o di specializzazione? Traduzione automatica o indicizzazione di testi? I fenomeni da analizzare e le informazioni rilevanti sono diversi a seconda del tipo di linguaggio e di applicazione. Il livello di granularità dell'informazione dipende anch'esso dall'obiettivo, oltre che da fattori di costo, ma è soprattutto determinato dalla capacità di calcolo del sistema: non ha senso introdurre nella descrizione linguistica distinzioni molto sottili ma non computabili. L'assoluta necessità di adottare un formalismo conforme a degli standard internazionali per la costruzione di risorse lessicali è ormai ampiamente riconosciuta nella comunità scientifica. L'uso di un modello formale e standardizzato di rappresentazione permette infatti una formulazione rigorosa e organicamente strutturata della conoscenza lessicale, consentendo quindi la riusabilità del lessico nonché la sua interoperabilità ed integrazione con altre risorse lessicali. Il lessico elettronico PAROLE-SIMPLE-CLIPS è la più vasta risorsa lessicale multilivello dell'italiano; è stato costruito in base agli standard internazionali definiti nel modello lessicale PAROLE-SIMPLE che ha permesso lo sviluppo di dodici lessici per altrettante lingue europee. Il lessico è articolato in quattro moduli indipendenti che corrispondono rispettivamente ai livelli fonologico, morfologico, sintattico e semantico di rappresentazione linguistica. La completa descrizione di un'unità lessicale consta pertanto di un minimo di quattro entrate interrelate, ognuna contenente un ricco insieme strutturato di informazioni inerenti al livello di descrizione che la ospita. I moduli sintattici e semantici, particolarmente ricchi ed innovativi, consentono una descrizione approfondita del comportamento delle unità lessicali che mette in risalto la stretta correlazione tra i due livelli. A livello sintattico, un'entrata descrive un comportamento sin
Tipologia CRIS:
04.01 Contributo in Atti di convegno
Keywords:
Lessicografia Computazionale; Formalizzazione; Strutturazione
Elenco autori:
Ruimy, Nilda
Link alla scheda completa:
Titolo del libro:
Forme e formalizzazioni