IBM Books
(C) IBM Corp. 2003

DB2 Net Search Extender Verwaltung und Programmierung


Definieren eines Dokumentmodells für HTML-Dokumente

Der HTML-Parser wandelt den Text in die UTF-8-Codepage um. Er führt eine HTML-Tagerkennung durch und klassifiziert die Tags in Tagklassen:

Er erkennt alle Sonderzeichendefinitionen (Entity-Definitionen), die in HTML 4 definiert sind, wie "ä" (ä), und löst sie in die entsprechenden Codepunkte in UTF-8 auf.

Er erkennt Meta-Tags und analysiert den Meta-Tag-Text.

Das folgende Beispiel zeigt ein HTML-Dokument:

<HTML>
<HEAD>
<META NAME="year" CONTENT="2002">
<TITLE> The Firm </TITLE>
</HEAD>
<BODY>
<H1>Synopsis</H1>;
 
 
<H1>Prologue</H1>;:
:
</BODY>

Das folgende Beispiel zeigt ein HTML-Dokumentmodell:

<?xml version="1.0"?>
<HTMLModel>
 
 <HTMLFieldDefinition
 name="subtitle"
 tag="title" 
 exclude="YES" /> 
 
 <HTMLFieldDefinition                 - Dies ist der Anfang eines Textfelds
 name="header1"
 tag="h1"
 exclude="YES" />                     - Dies ist das Ende des Textfelds
 
 <HTMLAttributeDefinition             - Dies ist der Anfang des Dokument-
 name="year"                                   attributs
 tag="meta"
 meta-qualifier="year"
 type="NUMBER" />                     - Dies ist das Ende des Dokument-
                                            attributs
 </HTMLModel>

Die erste Zeile, <?xml version="1.0"?>, gibt an, dass das Dokumentmodell mit XML-Tags geschrieben ist. Beachten Sie, dass dieses Modell nicht für Dokumente im XML-Format geschrieben ist.

Jedes Feld wird innerhalb eines Tags HTMLFieldDefinition oder HTMLAttributeDefinition definiert, das Elementparameter enthält.

Alle Textfelddefinitionen müssen im Tag <HTMLModel> enthalten sein.


[ Seitenanfang | Vorherige Seite | Nächste Seite | Inhaltsverzeichnis | Index ]