Appendix D. Tokenizer

1. Introduzione
2. Selezione delle lingue

1. Introduzione

I tokenizer (o stemmer) migliorano la qualità delle concordanze tramite il riconoscimento delle parole flesse, sia nei file di partenza, sia nelle memorie di traduzione. Migliorano anche le concordanze nel glossario.

Uno stemmer applicato all'Inglese, ad esempio, deve riconoscere la stringa "cats" (e possibilmente "catlike", "catty", e via discorrendo) basandosi sulla radice (tema) "cat", e "stemmer", "stemming", "stemmed" basandosi su "stem". L'algoritmo di riconoscimento della radice riduce le parole "fishing", "fished", "fish" e "fisher" al tema radice, ossia "fish". Ciò è particolarmente utile nei casi di lingue che utilizzano forme prefissali e suffissali sui temi. Mutuando un esempio dallo Sloveno, di seguito l'aggettivo "buono" in tutte le forme grammaticalmente corrette possibili:

  • lep, lepa, lepo - singolare, maschile (M), femminile (F), neutro (N)

  • lepši, lepša, lepše . - comparativo, nominativo, maschile, femminile, neutro, a confronto con la forma plurale dell'aggettivo

  • najlepših - superlativo, plurale, genitivo per M,F,N

2. Selezione delle lingue

I tokenizer sono inclusi in OmegaT e attivi per impostazione predefinita. OmegaT seleziona automaticamente un tokenizer per la lingua di partenza e quella di destinazione, in base alle impostazioni linguistiche del progetto. È possibile selezionare un altro tokenizer (lingua del tokenizer) o una versione diversa (comportamento del tokenizer) dalla finestra delle proprietà del progetto.

Nel caso in cui non esista un tokenizer per le lingue attive nel progetto, OmegaT utilizzerà invece Hunspell (assicurarsi in questo caso che siano installati i relativi dizionari Hunspell).

Incompatibilità

OmegaT non si avvierà se vengono trovati i tokenizer nella cartella /plugin. Rimuovere tutti i tokenizer dalla cartella /plugin prima di avviare OmegaT.