IBM Books
(C) IBM Corp. 2000

Manual de administración y del usuario de DB2 Net Search Extender


Definición de un modelo de documento para documentos HTML

El analizador HTML convierte el texto a la página de códigos UTF-8. Realiza el reconocimiento de los identificadores HTML y los clasifica en clases de identificadores:

Reconoce todas las referencias de entidades de caracteres definidas en HTML 4, como "ä" (ä) y las resuelve en los elementos de código correspondientes en UTF-8.

Reconoce los metaidentificadores y analiza el texto de los mismos.

A continuación se muestra un ejemplo de un documento HTML:

<HTML>
<HEAD>
<META NAME="year" CONTENT="2002">
<TITLE> La Tapadera</TITLE>
</HEAD>
<BODY>
<H1>Sinopsis</H1>;
 
 
<H1>Prólogo</H1>;:
:
</BODY>

A continuación se muestra un ejemplo de un modelo de documento HTML:

<?xml version="1.0"?>
<HTMLModel>
 
 <HTMLFieldDefinition
 name="subtitle"
 tag="title" 
 exclude="YES" /> 
 
 <HTMLFieldDefinition                 - Éste es el inicio del campo de texto
 name="header1"
 tag="h1"
 exclude="YES" />                     - Éste es el final del campo de texto
 
 <HTMLAttributeDefinition             - Éste es el inicio del atributo de
 name="year"                                   documento
 tag="meta"
 meta-qualifier="year"
 type="NUMBER" />                     - Éste es el final del atributo de
                                           documento
 </HTMLModel>

La primera línea, <?xml version="1.0"?>, especifica que el modelo de documento está escrito con identificadores XML. Tenga en cuenta que este modelo no está escrito para documentos en formato XML.

Cada campo se define dentro de un identificador HTMLFieldDefinition o HTMLAttributeDefinition, que contiene parámetros de elemento.

Todas las definiciones de texto deben estar contenidas en el identificador <HTMLModel>.


[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]