Разговорный ИИ: от распознавания к пониманию

Голосовые помощники Google, Amazon, Yandex, ставшие особенно популярными в последние годы, основаны на одной технологии — разговорном искусственном интеллекте. На данном этапе решения задач области обработки естественного языка (NLP) находятся на начальном уровне  — могут отвечать на простейшие запросы, упрощать работу банков и колл-центров. В будущем они могут стать полноценными персональными помощниками, которые будут справляться не только с бытовыми задачами, но и рассуждать, давать советы и даже проводить исследования.

Первые прототипы голосовых помощников стали разрабатываться ещё в начале эпохи распространения компьютерных технологий. Первая такая технология — ELIZA — была создана в 1966 году в качестве пародийной симуляции психотерапевта. К 2021 году ситуация изменилась — разработка диалоговых интеллектуальных помощников основана на нейросетевом машинном интеллекте. А учитывая, что большая часть современной коммуникации происходит через цифровые каналы, в том числе мессенджеры, у таких помощников довольно широкие возможности применения.

Подобные интеллектуальные помощники используются в банковской сфере для ответов на простейшие запросы клиентов, их функционал также позволяет автоматизировать работу колл-центров. Самой простой реализацией с точки зрения технологии является использование разговорного ИИ в чатах техподдержки. Кроме того, управление “умным домом” также постепенно осуществляется исключительно через голосовых помощников.

На сегодняшний момент технологии разговорного ИИ находятся на стадии понимания отдельных реплик пользователя. Наиболее эффективно они работают в условиях, когда заранее известна тема для разговора. При этом “обучение” таких устройств происходит на больших массивах текстовых данных, полученных во время беседы между людьми. Поэтому система может вести диалог на различных языках — а значит такой ИИ способен обрабатывать сотни языков одновременно.

Работа над диалоговыми системами отличается тем, что большинство алгоритмов для машинного обучения находятся в открытом доступе, а также существуют готовые решения и библиотеки для построения базовых пайплайнов. Библиотеки создаются как крупными технологическими гигантами, так и лабораториями научно-образовательных центров: например, TensorFlow от Google или DeepPavlov от Лаборатории нейронных систем и глубокого обучения Московского физико-технического института (МФТИ). На сегодня самая актуальная задача в области NLP — улучшить нейросетевые алгоритмы для повышения качества ответов ИИ, и открытые библиотеки для анализа текста помогают в этом.

Михаил Бурцев

“Система обработки естественного языка — это наиболее простой интерфейс для перехода от одной системы к другой. Но для более широкого применения необходимо улучшать качество ответов голосовых помощников”, — рассказывает руководитель проекта DeepPavlov, заведующий лабораторией нейронных систем и глубокого обучения МФТИ Михаил Бурцев. DeepPavlov  — библиотека с открытым исходным кодом для анализа текста и создания диалоговых систем. Проект направлен на разработку разговорного нейросетевого машинного интеллекта, способного вести содержательный диалог с человеком и достигать поставленной в диалоге цели. За время существования проекта, было сделано более 190 000 установок по всему миру, причем только около 30% установок из РФ, а остальные 70% — из других  стран. Например, Центр Цифровой Трансформации республики вместе с уполномоченным по ИИ в Татарстане использовал его для разработки голосового помощника, который отвечал на несложные вопросы в связи с пандемией и карантинными ограничениями весной 2020 года.

В работу DeepPavlov активно включены и студенты Физтеха: “Мы вместе разрабатываем идеи и гипотезы по поводу работы NLP, а студенты тестируют их при написании дипломов и диссертация, внося вклад в работу над разговорным ИИ”, — делится Михаил Бурцев. Команда аспирантов лаборатории в этом году также участвует в Alexa Prize Socialbot Challenge 4 — конкурсе от Amazon, где студенты должны создать голосового помощника, с которым можно общаться примерно на уровне живого собеседника. Среди соперников команды в основном ребята из США и Европы, и они принимают участие в таком международном соревновании во второй раз.

“Помимо упрощения жизни человека голосовые помощники могут играть общественную роль — становиться автоматическими собеседниками для улучшения психологического состояния людей. В дальнейшем при развитии ИИ возможна частичная симуляция диалога с какими-то известными личностями. Мы надеемся, что голосовые помощники смогут рассуждать, давать советы, и даже помогать ученым в проведении исследований — например, для поиска информации и обзора литературы”, — предлагает возможные сценарии развития Михаил Бурцев.

В феврале этого года библиотеке DeepPavlov исполнилось 3 года, и по этому поводу 5 марта пройдет встреча для всех пользователей и разработчиков, которые используют или планируют внедрять технологии.