Los analizadores en profundidad

Tal como se ha explicado anteriormente, los analizadores preparan el texto en el que se pueden hacer búsquedas para la indexación y la búsqueda.

La elección de los analizadores es muy importante. Los analizadores son clases concretas que amplían la clase org.apache.lucene.analysis.Analyzer. El GSS incluye varios analizadores, pero se pueden crear y utilizar analizadores propios. A veces, cuando esté tentado de definir un campo como no simbolizado, es recomendable que en lugar de hacerlo considera más detenidamente la elección de su analizador.

Cada servicio de búsqueda tiene un analizador predeterminado y cualquier campo del servicio de búsqueda puede alterar temporalmente dicho analizador para definir un analizador específico para utilizarlo con este campo (consulte el apartado analyzerName). GSS utilizará el mismo analizador tanto para la indexación como para la búsqueda.

El Servidor de búsqueda genérico proporciona los siguientes analizadores predefinidos.

LUCENESTANDARD
Divide el texto en los caracteres de puntuación, eliminando la puntuación. No obstante, un punto que no vaya seguido de un espacio en blanco se considera parte de un símbolo. Divide las palabras en los guiones, a menos que haya un número en el símbolo, en cuyo caso el símbolo completo se interpreta como un número de producto y no se divide. Reconoce las direcciones de correo electrónico y los nombres de host Internet como un símbolo. Normaliza el texto del símbolo a minúsculas y elimina las palabras frecuentes comunes en inglés.
STANDARD
Es parecido al analizador LUCENESTANDARD, pero las palabras frecuentes comunes se eliminan de los términos simbolizados y si el contenido que se debe simbolizar es un número único no se alterará (lo que hace que resulte adecuado para procesar ID de infraestructura generados que pueden ser números negativos).
SIMPLE
Divide el texto en los caracteres que no son letras y normaliza el texto de símbolo en minúsculas.
STOP
Divide el texto en los caracteres que no son letras, normaliza el texto del símbolo a minúsculas y elimina las palabras frecuentes comunes en inglés.
WHITESPACE
Divide el texto en los espacios en blanco. Las secuencias adyacentes de caracteres que no están en blanco forman símbolos.
KEYWORD
"Simboliza" la secuencia completa como un solo símbolo. Esto resulta útil para datos como códigos postales, ID y algunos nombres de producto.

Tenga en cuenta que si utiliza un analizador que no sea un analizador de GSS predefinido o analizadores suministrados con Lucene, la clase debe estar disponible en la ruta de clase del Servidor de búsqueda genérico.