Il web come corpus

 Categoria: Strumenti di traduzione

Se per definizione un corpus è una raccolta di testi rappresentativi di una lingua, il web, ovvero la rete delle reti, può essere considerato un unico grande corpus, che contiene una quantità smisurata di testi appartenenti alle più variegate tipologie facilmente accessibili. Il web, quindi, è sia una delle maggiori fonti testuali per costruire corpora di ogni genere che un corpus di per sé, sul quale possono essere effettuate delle analisi computazionali.

Dal punto di vista delle lingue, è lecito ammettere che nel web, purtroppo, non tutte sono rappresentate nella stessa percentuale e allo stesso modo, la società odierna ha determinato la nascita di un particolare tipo di varietà, la lingua del web, fatta di un suo lessico e talvolta anche di particolari costruzioni sintattiche.

Il web è sicuramente molto esteso e non è possibile definire con certezza le sue reali dimensioni, visto che quotidianamente vengono tolte o aggiunte nuove informazioni, quindi non è possibile incasellarlo nella tipologia di corpus dinamico.

Per poter affermare se il web sia un corpus o meno, bisogna considerare anche l’aspetto della rappresentatività, ovvero la capacità di un corpus di contenere diverse tipologie di testi in eguali quantità, in modo da rappresentare le differenti varietà di una stessa lingua. Da questo punto di vista, il web riesce a rappresentare effettivamente ogni differente forma della lingua di riferimento, perché non solo contiene ogni genere di materiale in forma scritta, ma risulta provvisto anche di molte testimonianze in video di parlato spontaneo (es.: YouTube è un sito web che consente la condivisione di video tra i suoi utenti e permette l’accesso a una quantità molto elevata e variegata di materiale audiovisivo). Il fatto, però, che i risultati forniti dai motori di ricerca vengano elencati sulla base di criteri non linguistici, comporta una disparità nel poter bilanciare la tipologia dei testi scelti. Ne deriva che il web non può essere considerato un corpus rappresentativo a tutti gli effetti.

Altro aspetto molto controverso è il grado di autorevolezza del web, perché esso contiene molto spesso materiale redatto a livello amatoriale (es.: Wikipedia) o da autori di dubbia affidabilità, che comporta di conseguenza la presenza non solo di semplici errori di battitura, ma anche di un basso profilo linguistico. L’utente, o il traduttore in questo caso, deve essere molto cauto e consapevole di riuscire a gestire il problema legato al ‘rumore’, ovvero la grande quantità di materiale non rilevante presente nel web, che andrà poi sfrondata dalle informazioni inutili per ottenere dati più attendibili.

Autore dell’articolo:
Elena Bartolucci
Traduttrice EN-DE>IT
Macerata