Иногда на веб-сайтах встречаются изображения, содержащие в себе текст, который бывает нужно скопировать к себе в текстовый редактор, однако до сих пор выбор был невелик. Можно было сохранить изображение на компьютер и воспользоваться специальными программами для работы с отсканированным текстом (OCR, optical character recognition. Они дают хороший результат, если текст представляет собой хорошо отсканированный текстовый документ, но могут не сработать, если текст расположен на фоне какого либо изображения, вроде комиксов. Или же можно было выбрать совсем нетехнологичный вариант и попросту набрать текст вручную.
Браузерное расширение Project Naptha предлагает вариант номер 3. Написанное на JavaScript, оно пока работает далеко не идеально, в чём не сомневается и его автор Кевин Квок (Kevin Kwok). Однако имеющиеся недостатки простительны с учётом уникальности данного продукта.
Перед началом распознавания плагину требуется определить, имеется ли на изображении текст, что является весьма непростой задачей. Решает её алгоритм Stroke Width Transform, разработанный в стенах Microsoft Research. Алгоритм полагается на тот факт, что строки текста обычно имеют довольно стандартную ширину, которая и выдаёт их наличие среди других изображений. Процесс обнаружения текста плагин начинает не раньше, чем пользователь перемещает к изображению указатель мыши, экономя тем самым вычислительные ресурсы и производительность браузера.
Далее можно привычными методами выбрать текст, как и в текстовых документах, и копировать его. Текст отправляется на сервер с открытым движком Ocrad OCR, где происходит обработка, и пользователю возвращается уже полноценный текст, доступный для вставки. В контекстном меню пользователь имеет возможность выбрать для обработки другой движок, например, Google Tesseract.
На этом функциональные возможности плагина не заканчиваются, и текст можно перевести на другие языки прямо внутри изображения. Вполне вероятно, плагин окажется в итоге платным, поскольку для его работы требуется удалённый сервер, плюс не бесплатны и Tesseract с Google Translate.