Appendix D. Plugin do Tokenizer

1. Introdução
2. Instalação e uso

1. Introdução

Tokenizers (ou stemmers) melhoram a qualidade das correspondências, reconhecendo palavras flexionadas nos dados da memória de tradução e da fonte. Também melhoram a correspondência de glossários.

Um stemmer do inglês, por exemplo, deve identificar a string "casas" (e possivelmente "casarão", "casinha" etc.) tomando por base a raiz "casa", e "portinhola", "portal", a partir de "porta". O algoritmo do stemmer reduz as palavras "pescar", "pescada", "pescaria" e "pescador" à palavra de raiz, "pesca". Isto é especialmente útil no caso de línguas que usam formas pré- e pós-fixadas das palavras a partir da raiz. Em um exemplo do esloveno, aqui está "bem" em todas as formas gramaticalmente corretas possíveis:

  • lep, lepa, lepo - singular, masculino, feminino, neutro

  • lepši, lepša, lepše . - comparativo, nominativo, masculino, feminino, neutro, resp. Forma plural do adjetivo

  • najlepših - superlativo, plural, genitivo para M, F, N

2. Instalação e uso

Os tokenizers vêm incluídos no OmegaT. O OmegaT seleciona automaticamente um tokenizer para a língua fonte e destino segundo as configurações de língua do projeto. É possível selecionar outro tokenizer ou uma versão diferente deste na janela de propriedades do projeto.

Incompatibilidades

O OmegaT não funcionará se houver tokenizers na pasta /plugin. Remova todos os tokenizers da pasta /plugin antes de iniciar o OmegaT.