Глава 22. Zend_Search

Содержание

22.1. Обзор
22.1.1. Введение
22.1.2. Объекты документа и поля
22.1.3. Значение типов полей
22.2. Индексация
22.2.1. Создание нового индекса
22.2.2. Обновление индекса
22.2.3. Обновление документов
22.2.4. Получение размера индекса
22.2.5. Оптимизация индекса
22.2.6. Ограничения
22.3. Поиск по индексу
22.3.1. Построение запросов
22.3.2. Результаты поиска
22.3.3. Ранжирование результата
22.3.4. Сортировка результатов поиска
22.4. Язык запросов
22.4.1. Элементы
22.4.2. Поля
22.4.3. Модификаторы элементов
22.4.4. Поиск по критерию близости
22.4.5. Усиление элемента
22.4.6. Булевы операторы
22.4.7. Групирование
22.4.8. Группирование полей
22.4.9. Экранирование специальных символов
22.5. Типы запросов
22.5.1. Простой запрос (запрос по одному ключевому слову)
22.5.2. Составной запрос (запрос по нескольким ключевым словам)
22.5.3. Фразовый запрос
22.6. Кодировки
22.6.1. Поддержка UTF-8 и однобайтных наборов символов
22.6.2. Используемый по умолчанию анализатор текста
22.6.3. Совместимый с UTF-8 анализатор текста
22.7. Расширяемость
22.7.1. Анализ текста
22.7.2. Фильтрация лексем
22.7.3. Алгоритмы ранжирования
22.7.4. Контейнеры хранения
22.8. Взаимодействие с Java Lucene
22.8.1. Форматы файлов
22.8.2. Директория для индекса
22.8.3. Исходный код Java
22.8.4. Использование LuceneIndexCreation.jar

22.1. Обзор

22.1.1. Введение

Zend_Search_Lucene является поисковым движком общего назначения для полнотекстового поиска, написанным полностью на PHP 5. Так как он хранит индекс в файловой системе и не требует наличия сервера баз данных, то дает возможность реализовать поиск практически для всех веб-сайтов, работающих под управлением PHP. Zend_Search_Lucene поддерживает следующие возможности:

  • Ранжированный поиск — более подходящие результаты возвращаются первыми

  • Множество типов запросов: поиск фраз, поиск с шаблонами, поиск по критерию близости, поиск по диапазону значений и т.д. [7]

  • Поиск по определенному полю (например: заголовок, автор, содержимое)

Zend_Search_Lucene произошел от проекта Apache Lucene. За более подробной информацией см. http://lucene.apache.org/java/docs/.

22.1.2. Объекты документа и поля

Zend_Search_Lucene оперирует с документами как с элементарными объектами для индексации. Документ делится на именованные поля, содержащие контент, по которому может производиться поиск.

Документ представлен объектом Zend_Search_Lucene_Document, этот объект содержит объекты Zend_Search_Lucene_Field, представляющие собой поля документа.

Важно отметить, что в индекс может быть добавлена любая информация. Данные вашего приложения или метаданные могут сохраняться в полях документа и после извлекаться вместе с документом в процессе поиска.

Приложение отвественно за процесс индексации. Как следствие, проиндексированы могут быть данные из любых источников, доступных приложению. Например, это могут быть файловая система, база данных, форма HTML и т.д.

Класс Zend_Search_Lucene_Field предоставляет несколько статических методов для создания полей с различными характеристиками.

<?php
$doc = new Zend_Search_Lucene_Document();

// Данные поля не разбиваются на лексемы,
// но индексируются и полностью сохраняются в индексе.
// Сохраненные данные поля могут быть получены из индекса.
$doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
                                                 'autogenerated'));

// Данные поля не разбиваются на лексемы и не индексируются,
// но полностью сохраняются в индексе. 
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));

// Бинарное поле, данные которого не разбиваются на лексемы и не индексируются,
// но сохраняются в индексе.
$doc->addField(Zend_Search_Lucene_Field::Binary('icon',
                                                $iconData));

// Данные поля разбиваются на лексемы, индексируются
// и полностью сохраняются в индексе. 
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
                                              'Document annotation text'));

// Данные поля разбиваются на лексемы и индексируются,
// но не сохраняются в индексе.
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  'My document content'));

?>

Каждый из этх методов (исключая метод Zend_Search_Lucene_Field::Binary()) имеет необязательный параметр $encoding. Через него указывается кодировка для входных данных.

Кодировка может различаться как для документов, так и для полей в одном документе.

<?php
$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::Text('title', $title, 'iso-8859-1'));
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents, 'utf-8'));
?>

Если этот параметр опущен, то используется текущая локаль. Например:

<?php
setlocale(LC_ALL, 'de_DE.iso-8859-1');
...
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
?>

Поля всегда сохраняются и возвращаются из индекса в кодировке UTF-8. Преобразование в UTF-8 производится автоматически.

Анализатор текста (см. далее) может также преобразовывать текст в другие кодировки. В настоящее время используемый по умолчанию анализатор преобразует текст в кодировку 'ASCII//TRANSLIT'. Имейте в виду, что такое преобразование может зависеть от текущей локали.

Имена полей могут быть любыми.

Java Lucene по умолчанию использует для поиска поле "contents". Zend_Search_Lucene по умолчанию производит поиск по всем полям, но это поведение можно изменить. За подробностями см. Поля для поиска.

22.1.3. Значение типов полей

  • Поля Keyword полностью сохраняются и индексируются, это означает, что можно не только производить поиск в них, но и отображать их в результатах поиска. Они не делятся на отдельные слова посредством разбиения на лексемы. Нумерованные поля БД обычно преобразуются в поля Keyword в Zend_Search_Lucene.

  • В полях UnIndexed нельзя производить поиск, но они возвращаются в результатах поиска. Поля timestamp, ключевые поля, пути в файловой системе и другие внешние идентификаторы — хорошие кандидаты для того, чтобы быть полями UnIndexed.

  • Поля Binary не разбиваются на лексемы и не индексируются, но сохраняются для возвращения в результатах поиска. Они могут использоваться для хранения любых данных, закодированных в виде бинарной строки — как, например, иконки.

  • Поля Text сохраняются, разбиваются на лексемы и индексируются. Текстовые поля подходят для хранения такой информации, как темы и заголовки — в них нужно не только искать, но и возвращать с результатами поиска.

  • Поля UnStored разбиваются на лексемы и индексируются, но не сохраняются в индексе. Тексты большого объема лучше индексировать, используя этот тип поля. Хранение таких данных создает индекс, который занимает много места на диске, поэтому если нужно искать в данных, но не выводить их, то используйте поле UnStored. Поля UnStored полезны, когда используется индекс Zend_Search_Lucene в комбинации с реляционной БД. Вы можете индексировать большие поля данных для поиска с помощью UnStored и извлекать их из реляционной БД, используя отдельные поля как идентификаторы.

    Таблица 22.1. Типы Zend_Search_Lucene_Field

    Тип поля Сохраняется Индексируется Разбивается на лексемы Бинарное
    Keyword Да Да Нет Нет
    UnIndexed Да Нет Нет Нет
    Binary Да Нет Нет Да
    Text Да Да Да Нет
    UnStored Нет Да Да Нет


[7] Сейчас поддерживается поиск по одному и нескольким элементам, фразам, булевы операторы и подзапросы.