(C) IBM Corp. 2000
Manual de administración y del usuario de DB2 Net Search Extender
Un modelo de documento principalmente controla qué partes de la estructura
de un documento necesitan indexarse y de qué forma. Su finalidad
es:
- Identificar los campos de texto que deberían distinguirse en el documento
fuente
- Determinar el tipo de este campo de texto
- Asignar un nombre de campo al campo de texto
Cuando el modelo de documento identifica el texto como perteneciente a un
campo de texto, el texto se considera parte del contenido textual del
documento y los términos se extraen y almacenan en el índice.
Los elementos de un modelo de documento varían dependiendo del analizador
utilizado para el formato del documento:
- Para el formato HTML, un modelo de documento utiliza los nombres de los
identificadores HTML para definir qué identificadores deberían indexarse y
cómo debe gestionarse la información de metaidentificación.
- Para el formato XML, no existe ningún conjunto de identificadores
predefinido, por lo que un modelo de documento debe definir en primer lugar
qué identificadores interesan. Los elementos XML con el mismo nombre
también pueden distinguirse en base a los otros elementos en que estén
incluidos.
- Para el formato GPP (analizador de finalidad general), el modelo de
documento interactúa de forma más estrecha todavía con el analizador porque
debe determinar los límites de los campos de texto. Aquí, la definición
del campo debe especificar series para detectar los límites de los
campos.
- Para los formatos Outside-In, un modelo de documento utiliza
identificadores similares a los nombres de los identificadores HTML para
definir qué identificadores deberían indexarse y cómo debe gestionarse la
información de metaidentificación. Tenga en cuenta que el formato de
filtrado Outside-In también se conoce como INSO.
Vea la sección "Definición de un modelo de documento" relevante para
obtener información.
Para obtener información sobre la sintaxis del modelo de documento en la
forma de una definición de tipo de documento (DTD) y las limitaciones de los
campos de texto, consulte el Apéndice G, Referencia a modelo de documento.
[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]