(C) IBM Corp. 2000
DB2 Extension Net Search - Guide d'administration et d'utilisation
Un modèle de document contrôle principalement quelles sont les parties de
la structure d'un document à indexer et comment elles le sont. Son
objectif est :
- D'identifier les zones de texte devant être distinguées dans le
document source.
- De déterminer le type d'une telle zone de texte.
- D'Affecter un nom de zone à la zone de texte.
Lorsque le modèle de document identifie le texte comme appartenant à une
zone de texte, il est considéré comme faisant partie du contenu textuel du
document et les termes sont extraits et stockés dans l'index.
Les éléments d'un modèle de document varient en fonction de
l'analyseur syntaxique utilisé pour ce format de document :
- Pour le format HTML, un modèle de document utilise les noms de balise HTML
pour définir quelles balises doivent être indexées et comment traiter les
informations des balises meta.
- Pour le format XML, il n'existe pas d'ensemble de balises
prédéfini, aussi un modèle de document doit d'abord définir quelles sont
les balises présentant un intérêt. Les éléments XML de même nom peuvent
être également distingués en fonction des autres éléments dans lesquels ils
sont imbriqués.
- Pour le format GPP (general purpose parser), le modèle de document agit
encore plus en profondeur avec l'analyseur syntaxique car il doit
déterminer les limites des zones de texte. Dans ce cas, la définition
de zone doit spécifier des chaînes pour détecter les limites des zones.
- Pour les formats Outside-In, un modèle de document utilise des
balises similaires aux noms de balise HTML pour définir les balises à indexer
et comment traiter les informations des balises meta. Notez que le
format de filtrage Outside-In est aussi connu sous le nom
d'INSO.
Pour plus d'informations, reportez-vous à la section appropriée
"Définition d'un modèle de document".
Pour plus d'informations sur la syntaxe du modèle de document sous
forme de DTD (Document Type Definition) et les informations des zones de
texte, reportez-vous à l'Annexe G, Référence du modèle de document.
[ Début de page | Page précédente | Page suivante | Table des matières | Index ]