Компания Microsoft сумела снизить долю ошибок при машинном распознавании речи до 5,1%. Столько же ошибок допускает при транскрибировании телефонного разговора команда специально подготовленных людей. Следующая задача — научить компьютер понимать смысл сказанного.
Новый рекорд
Система Microsoft для распознавания устной человеческой речи научилась делать это лучше, чем специально натренированные люди. Об этом сообщил в блоге компании главный специалист Microsoft в области распознавания речи Сюэдон Хуан (Xuedong Huang). По его словам, доля ошибок, которые допускает система в процессе транскрибирования телефонного разговора, снизилась до 5,1% — столько же ошибок делает команда специально обученных людей.
При этом обычные люди, у которых нет специальной подготовки, распознают устную речь с долей ошибок 5,9%. В сентябре 2016 г. система Microsoft допускала 6,3% ошибок, что на тот момент было мировым рекордом точности машинного транскрибирования. Но уже в октябре она снизила количество ошибок до 5,9%, как у среднестатистического человека.
Под долей ошибок понимается процент слов, которые неправильно транскрибируются во время прослушивания телефонного разговора. Для проверки системы Microsoft пользуется стандартным тестом на правильность распознавания речи Switchboard, который широко применяется в отрасли, в том числе компаниями IBM и Google.
Однако пока что система Microsoft может лишь распознать устную речь и адекватно представить ее в письменной форме. Смысл прозвучавших слов компьютер пока не понимает. Кроме того, распознавание проходит хорошо только тогда, когда разговор отчетливо звучит на качественной записи. Если же речь звучит в окружении посторонних шумов, процент ошибок растет.
Технические основы распознавания речи в Microsoft
Примечательно, что еще 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%. Компании вроде Microsoft и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г.
Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий Microsoft Cognitive Toolkit 2.1 (CNTK), который позволяет запускать глубинные обучающие алгоритмы. Для улучшенного акустического моделирования используется сверточная нейронная сеть в сочетании с двунаправленной долгой краткосрочной памятью CNN-BLSTM.
Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи. В частности, для более быстрой тренировки системы и тестирования новых идей компания использует облачные Azure GPU.