Введение
Windows TIFF IFilter предоставляет возможность поиска документов TIFF основанных на текстовом содержимом. При загрузке Windows TIFF IFilter выполняет оптическое распознавание символов (optical character recognition OCR), обрабатывая изображения TIFF, а затем предоставляет полученный текст для построения поискового индекса.
Windows TIFF IFilter выполняет поиск тех документов, которые содержат ясно распознаваемый текст (например, черный текст на белом фоне) и менее успешный для документов, которые содержат смешанное содержимое (например, нестандартные шрифты или текст, содержащий рисунки). Изображения низкого качества и смешанные языки могут отрицательно воздействовать на обработку OCR. В этом случае качество поисковых результатов снижается.
Windows TIFF IFilter поддерживает все документы TIFF, которые определены спецификациями Adobe TIFF Revision 6.0 и включают самые распространенные форматы, например, LZW, JPG, CCITT v4, CCITT v6, а также несжатые форматы.
Поскольку OCR – действие, которое потребляет много времени, Windows TIFF IFilter не устанавливается по умолчанию на операционных системах Windows 7 и Windows Server 2008 R2 и файлы TIFF индексируются, основываясь на базовых свойствах файла (например, имя файла, размер и дата изменения). Пользователи, которым необходимо искать файлы TIFF основываясь на текстовом содержимом, могут установить Windows TIFF IFilter при помощи текущего руководства.
В этом руководстве описываются способы установки компонента Windows TIFF IFilter и его использования в Windows Desktop Search.
Установка Windows TIFF IFilter в Windows 7
Для установки Windows TIFF IFilter в Windows 7 выполните следующие действия:
- Нажмите на кнопку «Пуск» для открытия меню, откройте «Панель управления», из списка компонентов панели управления выберите «Программы и компоненты». Перейти по ссылке «Включение или отключение компонентов Windows».
- Установите флажок на опции «Фильтр Windows TIFF IFilter»
- Нажмите на кнопку «ОК».
После того, как вы завершите эти три шага, новые TIFF изображения, которые добавляются в директории, будут индексироваться по своему содержимому. Если в индексируемых директориях уже присутствуют TIFF изображения, они не будут проиндексированы до тех пор, пока пользователь не восстановит индекс, как описано ниже. Для этого:
- Нажмите на кнопку «Пуск», введите «Параметры индексирования» в поле поиска меню «Пуск» и нажмите на клавише ENTER.
- Нажмите на кнопку «Дополнительно», а затем выберите команду «Перестроить».
Настройки Windows TIFF IFilter
Установки предпочитаемых языков для оптического распознавания символов
Эта настройка позволяет вам выбрать языки распознавания текста, которые принадлежат к одной из поддерживаемых кодовых страниц. Если этот параметр активен, то выбранные языки используются при выполнении распознавания текста в ходе индексирования TIFF-файлов. До тех пор, пока язык системы, используемый по умолчанию, не будет выбран в качестве языка распознавания текста, он будет игнорироваться. Если этот параметр политики отключен или не задан, используется только язык системы, используемый по умолчанию.
Все выбранные языки распознавания должны принадлежать одной кодовой странице. Если выбраны языки, принадлежащие разным кодовым страницам, используется только язык системы, выбранный по умолчанию, а все остальные языки игнорируются.
Установка предпочтительных языков OCR
- Откройте «Редактор локальной групповой политики». Для этого нажмите на меню «Пуск», введите gpedit.msc в текстовом поле поиска меню «Пуск» и выберите объект из списка найденных результатов.
- Разверните папку «Конфигурация компьютера\Административные шаблоны».
- Разверните папку «Компоненты Windows\Найти\Распознавание текста».
- Два раза щелкните на «Выберите языки распознавания текста из кодовой страницы».
- Выберите опцию «Включить» для выбора одного или более языков.
- Нажмите на кнопку «ОК».
Или воспользуйтесь твиком реестра (например, Кириллица 1251 – Русский и Украинский языки):
Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows\Windows Search\OCR]
"SelectOCRLangs"=dword:00000001
"Russian"=dword:00000419
"Ukrainian"=dword:00000422
Принудительное распознавание оптических символов для каждой страницы изображения документов TIFF
Эта настройка позволяет вам отключить оптимизацию производительности. При отключении оптимизации производительности фильтр TIFF IFilter выполняет распознавание каждой страницы в документе TIFF, что позволяет индексировать весь распознанный текст. По умолчанию, для оптимизации производительности при распознавании фильтр TIFF IFilter пропускает страницы документа, которые содержат нетекстовое содержимое (например, изображения). В некоторых случаях страницы с текстом могут неправильно классифицироваться, например как страницы без текстового содержимого, а значит, текст на этих страницах не индексируется.
- Откройте «Редактор локальной групповой политики». Для этого нажмите на меню «Пуск», введите gpedit.msc в текстовом поле поиска меню «Пуск» и выберите объект из списка найденных результатов.
- Разверните папку «Конфигурация компьютера\Административные шаблоны».
- Разверните папку «Компоненты Windows\Найти\Распознавание текста».
- Два раза щелкните на «Использовать фильтр TIFF IFilter при распознавании текста для каждой страницы документа TIFF».
- Выберите опцию «Включить» для выбора одного или более языков.
- Нажмите на кнопку «ОК».
Или воспользуйтесь твиком реестра:
Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows\Windows Search\OCR]
"OCREveryPage"=dword:00000001