Кампания Microsoft установила новый рекорд, снизив коэффициент частоты ошибок в программном обеспечении, распознающим речь, с 5,9 процентов до 5,1 процента. Так Microsoft обошла предыдущего рекордсмена – кампанию IBM, разработки которой лидировали с начала 2017 года с коэффициентом в 5,5 процента.
Считается, что коэффициент в 5,1 процент – средний показатель для человека. Поэтому его принимают как допустимую норму ошибок при профессиональной расшифровщике аудио- и видеоматериалов. Среди искусственных систем разговорной речи такой низкий показатель можно считать существенным достижением.
Программное обеспечение разрабатывается и усовершенствуется в Microsoft Artificial Intelligence and Research. Оно является неотъемлемой частью популярного сервиса Cortana, а так же частично применяется в работе Cognitive Services и Presentation Translator.
Созданная инженерами Microsoft система распознавания речи базируется на разных языковых моделях, объединенных в нейронную сеть. Для испытаний системы использовали «Switchboard corpus» – унифицированный каталог телефонных переговоров, содержащий две с половиной тысячи диалогов. Этот метод является общепризнанным и используется для решения подобных задач уже больше четверти века.
Технология ориентирована на использование всего разговора в целом. Модель, по которой работает система, предполагает, что вся предыдущая история диалога задействуется целиком, когда система пытается определить какая конкретная фраза будет следовать за теми или иными словами. Такой подход позволяет минимизировать ошибки программы до уровня, который вполне допустим для людей.
В Microsoft убеждены, что постепенное снижение ошибок в распознавании живой человеческой речи – это верный путь к пониманию программным обеспечением людей.