Компьютерра, 2005 № 38 (610) | страница 27
В общем, безупречная массовая система типа, скажем, 1000/1000 или 1000/10000, то есть для многих дикторов с распознаванием нескольких сотен слов (а уж тем более фраз или слитной речи любого диктора), пока не создана. Тот, кто создаст такую систему для английского, немецкого, китайского, да и для русского языка, озолотится.
Естественно, такие системы активно разрабатываются. На мой взгляд, тут самая обещающая идея - перейти от «сугубо технического» распознавания 90-х годов (очистка сигнала, нарезка, угадывание фонем и пр.) к распознаванию «по смыслу», по контексту, то есть к предугадыванию того, что могло бы быть сказано. Именно так распознает речь человек: без знания контекста и заранее сформированной модели ситуации мы ошибаемся в распознавании на слух абстрактных текстов не реже машины. А предугадать круг возможных реплик не слишком трудно, это и так делают при создании любого центра обработки звонков, службы технической поддержки и пр.
Ясно, что заранее обученные контексту системы можно создавать только для ограниченного контекста, то есть для узких и хорошо описанных предметных областей (или они должны надежно распознавать предметные области и быстро переключаться между ними). Тем не менее для массовых справочных сервисов в мобильном телефоне этого было бы вполне достаточно.
Вторая перспективная идея - отказ от попытки точно распознать всю фразу. Вместо этого нужно «ловить» в потоке непонятной речи ключевые слова и фразы - и по ним строить гипотезы о возможном содержании запроса. Это тоже близко к тому, как распознает речь человек, особенно в условиях шума, сильного акцента собеседника, большого количества неизвестных слов в его речи. Фактически нужно превратить распознаватель в поисковую машину по возможным репликам пользователя.
Рынок мобильного контента требует интеллектуальных агентов, умеющих поддерживать связный диалог - болтать в чате, осуществлять навигацию по услугам, выбирать картинки или мелодии… Из развлечения для студентов и профессоров и повода выиграть престижный, но практически бесполезный приз Лёбнера (на прохождение теста Тьюринга на «человечность») виртуальные собеседники превращаются в серьезный бизнес. Уже появляются первые «виртуальные подружки» - тамагочи в мобильнике, - требующие внимания и подарков.
Для английского языка это сделать проще, а для немецкого или русского - гораздо сложнее. Такие стартапы сейчас то и дело появляются. Например, российская компания «Наносемантика» разрабатывает виртуальных собеседников для русского и английского языков, позволяющих вести связный диалог по SMS и в Интернете, и к ним очень большой интерес проявляют агрегаторы мобильного контента.