Pour les documents HTML et XML, l'Extension Net Search fournit des modèles de document par défaut qui sont utilisés si vous ne définissez pas de modèle de document. Pour les documents en texte en clair et structurés, vous devez fournir et spécifier un modèle de document.
Si vous utilisez l'un des modèles de document par défaut :
Type de document | Comportement du modèle de document par défaut |
---|---|
HTML | Les zones suivantes sont acceptées comme zone de texte :
<a> <address> <au> <author> <h1> <h2>
<h3> <h4> <h5> <h6> <title>.
Le nom de la zone est le nom de la balise, par exemple "address". |
XML | Accepte toutes les balises comme zone de texte.
Le nom de la zone est le chemin d'accès à la balise en notation Xpath, par exemple "/play/title". |
Texte en clair structuré (GPP) | Aucun modèle de document par défaut. |
Outside-In (INSO) | Accepte comme zones de texte les propriétés de document illustrées à la section Paramètres des éléments, telles qu'elles sont renvoyées par les filtres Outside-In. Le nom de la zone est celui de la propriété du document utilisé par Outside-In, par exemple : "SCCCA_TITLE". Aucun attribut n'est pris en charge. |
Pour chaque type de document, un modèle de document est défini. Comme les modèles sont tous différents, un exemple et des explications sont fournis pour chacun d'eux.
Remarque |
---|
Bien que les modèles de document par défaut traitent correctement les documents, il est préférable de définir vos propres modèles de document pour obtenir de meilleures performances d'indexation et de recherche. Avec le modèle de document par défaut, le texte d'un document est totalement indexé qu'il fasse ou non partie d'une zone de texte. Ceci signifie que les recherches de texte illimitées incluent une recherche dans ce texte. |