Analyseurs en profondeur

Comme indiqué précédemment, les analyseurs préparent votre texte interrogeable pour l'indexation et la recherche.

Le choix de vos analyseurs est très important. Les analyseurs sont des classes concrètes qui étendent la classe org.apache.lucene.analysis.Analyzer. GSS est livré avec plusieurs analyseurs, et vous pouvez créer et utiliser les vôtres. Parfois, lorsque vous êtes tentés de définir une zone comme non segmentée, vous préférerez peut-être plus attentivement les choix d'analyseurs dont vous disposez.

Chaque service de recherche dispose d'un analyseur par défaut, et chaque zone de service de recherche peut remplacer cet analyseur pour définir un analyseur spécifique à utiliser avec cette zone (voir analyzerName). GSS utilisera le même analyseur pour l'indexation et les recherches.

Generic Search Server fournit les analyseurs prédéfinis suivantes.

LUCENESTANDARD: Sépare le texte en fonction des caractères de ponctuation, en supprimant la ponctuation. Toutefois, un point qui n'est pas suivi d'un blanc n'est pas considéré comme faisant partie d'une chaîne de caractères. Sépare les mots en fonction des traits d'union, sauf si un nombre se trouve dans la chaîne de caractères, auquel cas la chaîne de caractères entière est interprétée comme un numéro de produit et n'est pas séparée. Reconnaît les adresses de courrier électronique et les noms d'hôte Internet comme une chaîne de caractères. Normalise le texte de la chaîne de caractères en minuscule et retire les mots vides anglais courants.
STANDARD: Semblable à l'analyseur LUCENESTANDARD mais les mots vides courants sont supprimés des termes segmentés et si le contenu à segmenter est un nombre unique, il ne sera pas modifié (ce qui le rend plus adapté pour les ID d'infrastructure générées par le traitement, qui peuvent être des nombres négatifs).
SIMPLE: Sépare le texte en fonction des caractères qui ne sont pas des lettres, et normalise le texte de la chaîne de caractères en minuscules.
STOP: Sépare le texte en fonction des caractères qui ne sont pas des lettres, normalise le texte de la chaîne de caractères en minuscules, puis supprime les mots vides anglais courants.
WHITESPACE: Sépare le texte en fonctions des blancs. Les séquences adjacentes des caractères non blancs forment des chaînes de caractères.
KEYWORD: "Segmente" le flux entier comme une chaîne de caractères unique. Cet analyseur est utile pour les données comme les codes postaux, les ID et les noms de produit.

Remarquez que lorsque vous utilisez un analyseur autre qu'un analyseur GSS prédéfini ou que les analyseurs livrés avec Lucene, la classe doit être disponible dans le chemin d'accès aux classes Generic Search Server.