El analizador de finalidad general explora el documento buscando una de las series de límite de inicio. Cuando encuentra una serie de límite, analiza el campo siguiente hasta que encuentra la serie de límite de final correspondiente.
El contenido del campo se indexa según el término de la definición, es decir, como un campo de texto o atributo de documento. Si el campo de texto y atributo de documento tienen las mismas series de límite de inicio y de final, el contenido del campo se indexa como campo de texto y como atributo de documento.
No se pueden anidar los campos; si se encuentra una nueva serie de límite de inicio en un campo antes de alcanzar la serie de límite de final, la nueva serie de límite de inicio se interpreta como texto normal.
Si no se encuentra ninguna serie de límite de final, se asume que el campo se extiende hasta el final del documento y se comunica un código de razón adecuado.
Si no se especifica ninguna serie de límite de final en el modelo de documento, la nueva serie de límite de inicio señala el final del campo anterior.
El analizador HTML convierte el texto a la página de códigos UTF-8. Realiza el reconocimiento de los identificadores HTML y los clasifica en clases de identificadores:
Reconoce todas las referencias de entidades de caracteres definidas en HTML 4, como "ä" (ä) y las resuelve en los elementos de código correspondientes en UTF-8.
Reconoce los metaidentificadores y analiza el texto de los mismos.
A continuación se muestra un ejemplo de un documento HTML:
<HTML> <HEAD> <META NAME="year" CONTENT="2002"> <TITLE> La Tapadera</TITLE> </HEAD> <BODY> <H1>Sinopsis</H1>; <H1>Prólogo</H1>;: : </BODY>
A continuación se muestra un ejemplo de un modelo de documento HTML:
<?xml version="1.0"?> <HTMLModel> <HTMLFieldDefinition name="subtitle" tag="title" exclude="YES" /> <HTMLFieldDefinition - Éste es el inicio del campo de texto name="header1" tag="h1" exclude="YES" /> - Éste es el final del campo de texto <HTMLAttributeDefinition - Éste es el inicio del atributo de name="year" documento tag="meta" meta-qualifier="year" type="NUMBER" /> - Éste es el final del atributo de documento </HTMLModel>
La primera línea, <?xml version="1.0"?>, especifica que el modelo de documento está escrito con identificadores XML. Tenga en cuenta que este modelo no está escrito para documentos en formato XML.
Cada campo se define dentro de un identificador HTMLFieldDefinition o HTMLAttributeDefinition, que contiene parámetros de elemento.
Todas las definiciones de texto deben estar contenidas en el identificador <HTMLModel>.