Data di Pubblicazione:
2016
Abstract:
Il corpus di testi su cui si basa la redazione del TLIO (Corpus TLIO) è un corpus lemmatizzato, con una lemmatizzazione tendenzialmente esaustiva sulle forme, non sulle occorrenze.
La lemmatizzazione del Corpus TLIO presenta criticità e problematiche legate alla natura stessa del corpus: plurilinguismo, eterogeneità filologica, stratificazione negli anni di un lavoro che ha via via cambiato modalità e strategie operative, assenza di marcatura nella preparazione dei testi.
Il contributo espone le maggiori problematiche della lemmatizzazione ed esplicita i criteri da seguire per la razionalizzazione del pregresso e per un futuro completamento. Viene posto inoltre il problema del valore del corpus come oggetto di indagini linguistiche, in relazione alla recente disciplina della linguistica dei corpora e mettendo in risalto gli aspetti per cui il Corpus TLIO lemmatizzato possa considerarsi fonte di lingua oltre che raccolta di testi cui attingere per la redazione di un vocabolario.
Tipologia CRIS:
04.01 Contributo in Atti di convegno
Keywords:
Lessicografia; Banche dati; Lemmatizzazione
Elenco autori:
Artale, Elena
Link alla scheda completa:
Titolo del libro:
Attorno a Dante, Petrarca, Boccaccio: la lingua italiana. I primi trent'anni dell'Istituto CNR Opera del Vocabolario Italiano, 1985-2015, Convegno internazionale Sotto l'Alto Patronato del Presidente della Reapubblica, Firenze 16-17 dicembre 2015