Компьютерра, 2005 № 38 (610) | страница 26



Лидер в категории «мобильный офис» пока не появился. Соответственно, нет и общего стандарта, хотя он всем очень нужен. Кто его разработает и внедрит, тот будет монополистом (боюсь, им опять окажется Microsoft).


Искусственный интеллект и мобильные технологии

В области ИИ обещания создать говорящих роботов, устройства распознавания речи, машинные переводчики даются уже более сорока лет, однако сделано не очень много. Мне кажется, в первую очередь потому, что у рядового потребителя не было потребности в разумном поведении бытовых устройств. Однако с проникновением ИТ, а особенно мобильников в массы эта потребность появилась.

Мобильные устройства и телефоны сейчас остро требуют внедрения технологий ИИ. В первую очередь - распознавания речи.


Распознавание речи

Насколько удобнее было бы вводить SMS или номер абонента вслух, чем с помощью убогой клавиатуры и капризного алгоритма Т9! Не говоря уже о пользовании мобильником в автомобиле, где управлять звонками голосом гораздо удобнее и безопаснее. Но до сих пор эта проблема не решена; я не говорю об элементарных голосовых метках, которые есть во многих современных телефонах - там, по сути, распознается не речь, а звуковой паттерн, и они начинают сбоить уже при числе меток номеров более 15-20.

Вообще же качество распознавателя определяется соотношением числа узнанных слов к допустимому числу разных дикторов. Сейчас существуют системы только двух крайних типов - множество слов для одного или нескольких дикторов (скажем, 60 тысяч слов/1 диктор) и много дикторов с несколькими десятками слов. А чтобы обслуживать массового пользователя, нужны системы для множества дикторов с множеством слов.

Первый тип голосовых систем используется для диктовки текстов или управления компьютером, при условии тщательного обучения системы вашему голосу. Такие системы после обучения работают довольно надежно. Однако массовый пользователь никогда ничего не настраивает, никогда ничему не обучает, это известный факт. Настройки в операционной системе, текстовом редакторе или на веб-сайте поисковика меняют не более 1-2% пользователей.

Второй тип распознавания используется для элементарных вопросо-ответных систем в центрах обслуживания абонентов, для набора номера голосом, в так называемых голосовых порталах, но тут технология работает не очень хорошо. Понятно, что системы с многими дикторами должны работать без обучения с любым диктором, и это их проклятие.