(C) IBM Corp. 2000, 2003.
Net Search Extender
管理和用户指南
文档模型主要控制需要对文档结构的哪些部分建立索引以及如何对它们建立索引。其目的为:
- 标识应在源文档中区别出来的文本字段
- 确定这样的文本字段的类型
- 向文本字段指定字段名
当文档模型将文本标识为属于文本字段时,将认为该文本是文档的文本内容的一部分,并将抽取一些术语并将它们存储在索引中。
文档模型的元素随用于该文档格式的解析器的不同而变化:
- 对于 HTML 格式,文档模型使用 HTML 标记名来定义应对哪些标记建立索引以及如何处理元标记信息。
- 对于 XML 格式,没有预定义的标记集,所以文档模型必须首先定义哪些标记是有用的。对于名称相同的 XML
元素,还可以根据它们嵌入哪些其它元素中来区分它们。
- 对于 GPP(通用解析器)格式,文档模型与解析器进行更进一步的交互,原因是它必须确定文本字段的边界。此处字段定义必须指定用于检测字段边界的字符串。
- 对于 Outside-In 格式,文档模型使用类似 HTML 标记名的标记来定义应对哪些标记建立索引以及如何处理元标记信息。注意,Outside-In
过滤格式也称为 INSO。
有关信息,参见相关“定义文档模型”一节。
有关“文档类型定义”(DTD)形式的文档模型语法的信息和文本字段限制,参见附录 G, 文档模型参考。
[ 页的顶部 | 上一页 | 下一页 | 目录 | 索引 ]