Служба индексирования

Опубликована: 26.01.2005

Назначение и основные возможности. Служба индексирования (Indexing Service) — служба, входящая в поставку Windows 2000 всех модификаций (включая настольную версию Professional), которая индексирует файлы на локальном жестком диске и на общедоступных дисководах в сети. Выполнять поиск можно по индексу слова в содержании файлов или в свойствах файлов. Служба индексирования возвращает список всех документов, которые соответствуют критериям поиска.

Служба индексирования создана для непрерывной работы и не требует специального сопровождения. После того как она установлена, все действия осуществляются автоматически, включая создание индексов, обновление индексов и их восстановление в случае аварийного отказа, если произошел сбой питания. Служба индексирования безотказно работает в средах, критических по параметрам надежности и доступности, где сервер должен функционировать 24 часа в сутки и 7 дней в неделю.

Служба индексирования может индексировать:

Основы работы. Служба индексирования создает реестр каталогов, чтобы определить, какие документы должны быть проиндексированы; этот процесс впервые запускается сразу же после установки службы. Служба индексирования автоматически выполняет либо полный просмотр, либо инкре-ментный просмотр по мере необходимости.

Для каждого документа, который будет проиндексирован, служба индексирования выполняет следующие действия:

  1. Используя соответствующий документу фильтр, считывает документ, извлекает из него значения свойств документа и выделяет содержание. Сохраняет значения свойств документа и путь к документу в индексе.
  2. Разбивает поток предложений на отдельные слова. Для того чтобы разбить текст на слова, служба индексирования использует процедуры, соответствующие языку документа — английскому, немецкому, японскому и т. д.
  3. Удаляет незначащие слова — предлоги, междометия, вспомогательные глаголы и т. д.
  4. Сохраняет оставшиеся слова и путь к документу в индексе.
  5. Сохраняет значения выбранных свойств документа в кэше свойств.

Фильтры — программные компоненты, которые "понимают" структуру файла соответствующего типа, например, документа Microsoft Word или HTML. Фильтр извлекает содержание и значения свойств и посылает их ядру индексации.

Служба индексирования поставляется с фильтрами для отдельных популярных типов файлов, созданных, например, приложениями Microsoft Office. Фильтры для файлов, созданных в других приложениях, часто можно получить от поставщиков соответствующего программного обеспечения.

Требования к конфигурации компьютера. Минимальная аппаратная конфигурация для службы индексирования — та же, что и для самих систем Microsoft Windows 2000. Однако индексация и работа механизмов поиска зависят от количества и размера документов, которые будут проиндексированы, интенсивности поступления поисковых запросов и сложности запросов. На работу службы также влияет мощность компьютера. Компьютер с минимальной, аппаратной конфигурацией для Windows 2000 Server хорошо обрабатывает запросы, если число одновременных запросов не слишком высоко. Для маленькой организации этого может оказаться достаточно, но для большой организации, обслуживающей много пользователей, рекомендуется более мощная конфигурация (табл. 22.2).

Таблица 22.2. Рекомендуемые конфигурации компьютера, в зависимости от числа индексируемых документов

Если документов много, а памяти для работы службы не хватает, производительн

Число индексируемых документов

Минимальный объем оперативной памяти (Мбайт)

Рекомендуемый объем оперативной памяти; (Мбайт)

Менее 100000

64

64

От 100 000 до 250 000

64

От 64 до 128

От 250 000 до 500 000

64

От 128 до 256

500 000 и более

128

От 256

ость системы может серьезно понизиться. Если компьютер при функционировании службы работает медленно, можно попробовать настроить производительность службы (см. ниже). Можно улучшить производительность службы и компьютера в целом, увеличивая объем оперативной памяти и увеличивая объем памяти, выделенный для кэша свойств (property cache). Более быстрый процессор увеличивает скорость индексации и обработки запросов.

Полный объем документов, которые будут проиндексированы, и тип файловой системы также влияют на объем дискового пространства, требуемого для хранения данных службы индексирования. В файловой системе FAT пространство, необходимое для каталога, плюс временное рабочее пространство, приблизительно равно 30% объема индексируемого текста. В файловой системе NTFS требуется пространство, приблизительно равное 15% объема индексируемого текста,

Управление службой. В предыдущих версиях (входивших в состав Option Pack для Windows NT Server 4.0 иди поставлявшихся отдельно) управлять службой индексирования можно было как при помощи оснастки, так и с использованием HTML Интерфейса. В Windows 2000 оставлена только возможность управления службой индексирования с использованием оснастки (рис. 22.14).

Рис 22.14. Оснастка управления службой индексирования

Для управления службой индексирования:

  1. Запустите оснастку Управление компьютером.
  2. В дереве консоли разверните узел Службы и приложения | Служба индексирования (Services and Applications | Indexing Service).

Настройка производительности службы индексирования:

  1. Запустите оснастку управления службой индексирования.
  2. В меню Действие (Action) выберите пункт Стоп (Stop).
  3. В меню Действие выберите пункт Все задачи | Настройка производительности (All Tasks | Tune Performance).
  4. В диалоговом окне Применение службы индексирования (Indexing Service Usage) выберите вариант, который наиболее соответствует способу использования службы индексирования на данном компьютере.
  5. Если выбран вариант Особым образом (Customize), нажмите кнопку Настроить (Customize) и перейдите к следующему шагу. Если выбран другой вариант, перейдите к шагу 9.
  6. В диалоговом окне Производительность индексации (Desired Performance) переместите ползунок Построение индекса (Indexing) в сторону Отложенное (Lazy) для менее интенсивного индексирования или в сторону Немедленное (Instant) для скорейшего индексирования новых и измененных документов. Отложенное индексирование использует меньшее количество ресурсов компьютера; а немедленное — столько ресурсов, сколько возможно.
  7. Переместите ползунок Скорость обработки запросов (Querying) в сторону Низкая (Low load), если ожидается обработка малого количества запросов одновременно, или Высокая (High load), если ожидается обработка большого количества запросов одновременно. Обработка с низкой скоростью использует меньшее количество ресурсов; с высокой — большее.
  8. Закройте диалоговое окно Производительность индексации.
  9. Закройте диалоговое окно Применение службы индексирования и запустите службу индексирования, выполнив команду Пуск (Start) меню Действие (Action).

Поиск информации с помощью службы индексирования. При поиске информации запрос посылается службе индексирования. Служба индексирования, просматривая индекс, ищет документы, соответствующие критериям запроса, и возвращает список соответствующих запросу документов пользователю (или приложению, пославшему запрос).

В дополнение к запросу по содержанию можно сделать запрос по свойствам файлов. Эти свойства включают: размер файла, даты создания и изменения, имя файла, авторов файла и т. д. Можно, например, сделать запрос по текстовым свойствам (имя файла и автор) и числовым свойствам (размер и дата изменения). Можно также сделать запрос по всем свойствам элементов ActiveX, включая пользовательские свойства документов Microsoft Office.

Поиск можно выполнять тремя способами:

Форма запроса появится в правом подокне (рис. 22.16).

Рис 22.16. Поиск информации с использованием оснастки службы индексирования

Формы запросов. Служба индексирования поддерживает полную и краткую формы запросов. Запросы в полной форме создаются с использованием тэгов начала и окончания запроса, которые обозначаются фигурными скобками ({}). Тэги запроса служат для открытия и закрытия предложения запроса. Тэги запроса могут также включать уточняющие атрибуты или параметры.

Таблица 22.3. Режим запроса в краткой форме

Символ

Режим

@

Запрос на поиск фразы (эквивалент {phrase})

#

Запрос с регулярным выражением (эквивалент {regex})

$

Свободно текстовый запрос (эквивалент {freetext})

Правила составления запросов. Имеются пять видов запросов:

Правила, относящиеся к запросам всех видов

Рис 22.17. Список слов-исключений для американского английского языка


Примечание: Дата и время относительно текущей даты и времени могут быть выражены со знаком "минус" (-), за которым следует одна или более пар "целое число-единица". Единицы задаются так: у — число лет, q — число кварталов (три месяца), m — число месяцев, w — число недель, d — число дней, h — число часов, п — число минут и s — число секунд. Числовые значения могут быть заданы в десятичном или в шестнадцатеричном виде. Шестнадцатеричные значения предваряются символами "Ох".

Оператор contains. Для поиска слова или фразы в заданном свойстве можно использовать оператор contains. Если оператор не задан, по умолчанию считается заданным оператор contains. Следующие запросы эквивалентны:

@DocTitle "Что-то важное"

@DocTitle CONTAINS "Что-то важное"

Булевы операторы. Можно использовать булевы операторы and, or и мот как в запросах на вхождение в содержимое, так и в запросах по свойствам. Оператор near может применяться только в запросах по содержимому документов. Операторы в запросах могут быть записаны как в полной, так и в краткой форме (табл. 22.4).

Таблица 22.4. Полная и краткая формы операторов

Оператор

Длинная форма

Краткая форма

AND

AND

&

OR

OR

I

NOT

AND NOT

&!

NEAR

NEAR

Near, ~

Примечание:
• Булевы операторы доступны только в английском написании.
• Булевы операторы рассматриваются в следующем порядке: not, and и NEAR, OR

Текстовые запросы. Для свободных текстовых запросов можно указывать группу слов или законченное предложение. Служба индексирования находит документы, которые лучше всего соответствуют словам и фразам в свободно текстовом запросе. Булевы операторы и подстановочные символы в таком запросе игнорируются.

Запросы на поиск фразы. Чтобы искать фразу, ее нужно или заключить в кавычки, или предварить тэгом {phrase}. Слова в запросе на поиск фразы должны встретиться в документе в указанном порядке, без пропуска слов.

Запросы сопоставления с образцом. Для запросов сопоставления с образцом служба индексирования выбирает документы, соответствующие образцу, который задается пользователем.

В такого рода запросах используются маски (wildcards), запросы, задающие словоформы, регулярные выражения и операторы отношений.

Относительные запросы. В таких запросах для поиска документов, свойства которых лежат в некотором диапазоне, можно использовать операторы отношения: больше, меньше, равно, не равно и т. п.

Векторно-пространственные запросы. Векторно-пространственные запросы предназначены для поиска документов, которые соответствуют списку слов и фраз. Документы, которые возвращаются после выполнения векторно-пространственного запроса, не обязательно соответствуют каждому термину в запросе. Ранг каждого документа указывает, насколько хорошо документ соответствует запросу.

Можно задавать весовые коэффициенты, чтобы управлять относительной важностью терминов для получения результата. Допустимые значения весов находятся в диапазоне от 0,0 до 1,0.

Примеры запросов. В табл. 22.5 приведены примеры разнообразных запросов.

Таблица 22.5. Примеры запросов

Чтобы найти

Полная форма

Краткая форма

Результат

Заданное значение

{prop name=DocAu.thor } = Иван Иванов {/prop}

@DocAuthor = Иван Иванов

Документы, созданные Иваном Ивановым

Значение, начинающееся с заданного префикса

{prop name=DocAuthor } {гедех}Иван *{/rедех} {/prop}

IDocAuthor Иван*

Документы, чье свойство "автор" начинается с "Иван"

Файлы с расширением из числа заданных

{prop name=f ilename } { regex } * . | (doc | , txt | , wri | ) { /regex } { /prop }

#filename *. | (doc|, txt |, wri| )

Файлы с расширениями doc, txt или wri

Документы, измененные после некоторой даты

{prop name=write} > 99/7/18 11:05:00 {/prop}

@write > 99/7/18 11:05:00

Документы, измененные после 18 июля 1999 года, в11:05ло1ЯС

Документы, измененные после относительной даты

{prop name=write} > -2d4h {/prop}

@write > -2d4h

Документы, измененные в пределах последних 52 часов


Ссылка: http://www.oszone.net/1088/

Рейтинг@Mail.ru liveinternet.ru: статистика