Le origini della linguistica dei corpora

 Categoria: Attività correlate alla traduzione

L’era del digitale ha consentito un significativo sviluppo della ricerca linguistica, grazie all’enorme disponibilità di testi, di tutti i generi, in formato elettronico. Oggi, le banche dati e i corpora linguistici a disposizione, molti dei quali di libero accesso, possono essere utilizzati per rappresentare l’evoluzione storica delle lingue, per la didattica e, non da ultimo, possono costituire una preziosa risorsa per i traduttori (i corpora multilingue in modo particolare).

Ma quali sono le origini della linguistica dei corpora?

La tradizione anglosassone viene oggi considerata preponderante nel panorama mondiale. Il Brown Corpus of American Written English è stato pubblicato nel 1964, ma già negli anni Cinquanta Charles Carpenter Fries aveva dato un contributo fondamentale con la sua grammatica descrittiva della lingua inglese basata su un consistente corpus di conversazioni telefoniche.

Secondo Manuel Barbera, ricercatore dell’Università degli Studi di Torino e autore del volume “Linguistica dei Corpora e linguistica dei corpora italiana. Un’introduzione”, viene generalmente taciuto, soprattutto nella manualistica di lingua inglese, l’importante ruolo italiano nella disciplina, che ha radici ben più antiche di quelle anglosassoni. Infatti, come sottolineato più volte da Francesco Sabatini, nella storia della lingua italiana grammatici e lessicografi hanno fatto ricorso a corpora di testi fin dai tempi di Dante, anche nelle dispute linguistiche. Questo a causa della condizione particolare della nostra lingua, nata attraverso l’opera di grandi scrittori e mantenuta vitale per lungo tempo attraverso l’uso scritto.

Quindi, secondo Barbera, la tradizione italiana dovrebbe assumere un ruolo centrale nella linguistica dei corpora in primis perché, come sopra menzionato, il procedimento corpus based è alla base della storia linguistica italiana (tanto è vero che il Dizionario della Crusca del 1612 è stato costruito proprio su testi). Non solo: secondo Barbera, si dovrebbe dare adeguato rilievo anche all’opera del Padre Roberto Busa il quale, nel 1949, diede inizio all’Index Thomisticus, una lemmatizzazione, a quanto sembra già basata su conteggi elettronici, dell’opera di Tommaso D’Aquino e degli scritti a questo connessi.

Il volume di Barbera, così come il sito della Crusca, ci mettono a disposizione un ricco elenco di banche dati e corpora di varie tipologie (multilingue, traduzionali e interpretariali, giornalistici, giuridici, radiofonici e televisivi, solo per citarne alcuni)e la quantità di materiale a disposizione per la lingua italiana è davvero sorprendente.

Articolo scritto da:
Virginia Leo
Traduttrice EN-FR, IT
Cervia (RA)

Bibliografia
- Barbera Manuel (2013), Linguistica dei corpora e linguistica dei corpora italiana. Un’introduzione, Q.u.A.S.A.R. srl, Milano (l’e-book è scaricabile gratuitamente dal sito www.bmanuel.org).
Accademia della Crusca (ultimo accesso febbraio 2019)