ITbukva - Самые свежие новости в мире информационных технологий

Google DeepMind AI обходит человеческих экспертов в области чтения по губам

Google DeepMind AI обходит человеческих экспертов в области чтения по губамПрограмма искусственного интеллекта DeepMind от Google может быть наиболее известной сборкой AplhaGO, которая обошла одного из лучших игроков в Го в мире, но эта технология имеет множество применений в области науки и может оказаться особенно полезной для людей с нарушениями слуха, сообщает ITbukva.com.

Исследователи из Оксфордского университета и DeepMind объединились, чтобы создать систему искусственного интеллекта, используя 5000 часов видео BBC, которые содержали 118 000 предложений. Ей удалось превзойти профессионального читателя по губам, который предоставляет услуги для британских судов.

После показа случайной выборки из 200 видео из передач BBC, человек, читающий по губам, смог расшифровать меньше четверти произносимых слов. Но когда система ИИ была протестирована с использованием того же набора данных, она расшифровала почти половину слов и могла создать целые сложные фразы.

Кроме того, машина смогла аннотировать 46 процентов слов без ошибок, в то время как профессионалу удалось только около 12 процентов. Большинство ошибок ИИ были незначительными, как отсутствие 'S' в конце слов.

Две недели назад еще одна система глубокого обучения, которая может читать по губам, была разработана в Оксфордском университете. LipNet также был в состоянии победить человека в точном чтении по губам, хотя набор данных GRID, используемый в данном случае, содержал только 51 уникальное слово, в то время как данные BBC содержат почти 17 500, в соответствии с New Scientist.

GRID используется в хорошо освещенных видео людей, стоящих перед камерой и читающих слова длительностью три секунды. После показа ИИ 29 000 видео, он имел частоту ошибок лишь 6,6 процента, в то время как люди, которые были протестированы с использованием 300 подобных видео, имели средний коэффициент ошибок 47,7 процента.

Исследователи говорят, что система могла бы найти применение в мобильных технологиях, виртуальных помощниках, а также для задач распознавания речи. Она может быть также оказать неоценимую помощь глухим и людям с нарушениями слуха в понимании других.

"Машина, которая может читать по губам, открывает множество приложений: диктовать инструкции или сообщения на телефон в шумной среде; транскрибировать архивные немые фильмы, распознавать одновременную речь нескольких человек, а также улучшить производительность распознавания автоматизированной речи в целом", - пишут исследователи в своей статье.

Понравилась новость? Поделись ею
Google DeepMind AI обходит человеческих экспертов в области чтения по губам
Присоединяйтесь к нам в
Facebook

Читайте также наши другие новости:

Опубликовано: