Traduzione automatica (7)

 Categoria: Strumenti di traduzione

La tipologia di traduzione automatica di cui parleremo oggi è quella che utilizza corpora linguistici e che si basa sull’analisi di campioni reali e delle loro traduzioni corrispondenti. Fra questi sistemi, quello principale è la traduzione automatica statistica, abbreviata in SMT (Statistical Machine Translation).
L’obiettivo di questa tecnologia è generare traduzioni a partire da metodi statistici basati su corpora di testi bilingui e monolingui.
Affinché la SMT funzioni correttamente è necessario mettere a disposizione del sistema due banche dati piuttosto corpose: una di testi nella lingua di partenza con le relative traduzioni nella lingua di destinazione e un’altra di testi solo nella lingua d’arrivo.
Di fronte a un nuovo testo da tradurre, il sistema genera possibili traduzioni delle sequenze di parole che trova nel testo stesso sulla base delle corrispondenze che riscontra nella prima banca dati. Tra le varie proposte di traduzione seleziona poi la migliore sulla base della seconda banca dati, quella relativa alla sola lingua d’arrivo.

Il vantaggio della traduzione automatica statistica è che, una volta impostato il sistema secondo le specifiche richieste dal cliente, questi ha a disposizione uno strumento in grado di fornire una discreta qualità traduttiva di testi simili tra loro. Il lato negativo è che, affinché il sistema fornisca risultati di un certo livello, occorre mettere a sua disposizione un corpus molto sostanzioso di traduzioni esistenti e approvate.
Come si può facilmente immaginare, con questa tecnologia la qualità della traduzione aumenta all’aumentare della dimensione dei corpora linguistici nelle banche dati. Con un insieme sterminato di traduzioni esistenti e di testi nella lingua d’arrivo, si potrebbero ottenere risultati eccellenti con testi di argomento similare.
Language Weaver, il principale fornitore di sistemi di traduzione automatica statistica a livello mondiale, per ogni combinazione linguistica consiglia un corpus bilingue minimo di due milioni di parole, ma a nostro avviso si tratta di un valore molto inferiore rispetto a quello necessario per ottenere traduzioni almeno accettabili.
Per questo motivo e anche per il costo tendenzialmente superiore rispetto ad alcuni sistemi basati su regole, i sistemi di traduzione automatica statistica vengono usati quasi unicamente da agenzie governative e da multinazionali.