DB2 Net Search Extender 需要知道您打算搜索的文本文档的格式(或类型)。此信息对于为文本文档建立索引是必需的。
DB2 Net Search Extender 支持下列文档格式:
对于文档格式 HTML、XML、GPP 和 Outside In 过滤器格式,可以限制只搜索文档的特定部分。使用结构化文档说明如何定义和使用文档模型。
其中 Outside In 过滤器不能用于不受支持的文档格式,您可以编写“用户定义的函数”(UDF)。必须在创建索引时指定此 UDF 并将数据从不受支持的格式转换为受支持的格式。
有关更多信息,请参阅CREATE INDEX。
如果文档采用其中一种受支持的“编码字符集标识”(CCSID),则可以对文档建立索引。这些 CCSID 也称为代码页。有关这些代码页的列表,请参阅附录D. 受支持的 CCSID。
要检查数据库代码页,使用以下 DB2 命令:
db2 GET DB CFG for <dbname>
为了保持一致,DB2 通常将文档的代码页转换为数据库的代码页。但是,当将 DB2 数据库中的数据存储在具有二进制数据类型(例如,BLOB、FOR BIT DATA 或 datalink value)的列中时,DB2 不会转换数据,且文档将保持其原始 CCSID。
注意,如果具有两种不同的代码页,则在创建文本索引或进行搜索时可能会导致问题。有关进一步的信息,请参阅对二进制数据类型创建文本索引。