Система искусственного интеллекта Google DeepMind известна главным образом благодаря созданию программы AplhaGO, сумевшей превзойти одного из лучших игроков мира в Go. Эта же технология имеет множество других применений, в том числе способна помочь людям с проблемами со слухом.
Исследователи из Оксфордского Университета и разработчики DeepMind объединили усилия для создания системы искусственного интеллекта, используя для тренировки 5600 видео компании BBC, содержащие 118 тысяч предложений. В результате система смогла опередить профессионалов в области чтения по губам, которые работают в судах Великобритании.
При просмотре 200 случайно выбранных видео от компании BBC специалисты по чтению по губам смогли распознать менее четверти произнесённых слов. Система искусственного интеллекта распознала почти половину слов и могла разбирать целые сложные фразы. Также система смогла безошибочно прокомментировать 46% слов, тогда как у людей этот результат составил 12%. Большинство ошибок искусственного интеллекта были небольшими, вроде пропуска буквы s на конце слов во множественном числе.
Двумя неделями ранее в Оксфордском Университете была разработана другая система глубокого обучения, умеющая читать по губам. Система LipNet также превосходит людей в точности чтения, хотя набор данных под названием GRID состоял только из 51 уникального слова, тогда как данные BBC содержали почти 17500 слов.
В GRID используют видео с хорошим освещением и глядящими в камеру людьми, читающими слова на протяжении не менее 3 секунд. После показа системе 29 тысяч видео уровень ошибок составил всего 6,6%, тогда как людей тестировали с применением 300 похожих видео и уровень ошибок составил 47,7%.
Исследователи считают, что данные системы могут найти применение в мобильных устройствах, виртуальных ассистентах, приложениях распознавания речи и преобразования речи в текст. Они же могут оказаться бесценными для людей с проблемами со слухом, помогая им общаться и понимать других людей. ИИ может слышать пользователя в шумном окружении, помогать восстанавливать архивные немые фильмы, решать проблемы с распознаванием речи при одновременном разговоре множества людей и улучшать системы автоматического распознавания речи в целом.