Итоги, 2012 № 13 | страница 56



Командный тон / Hi-tech / Бизнес


Командный тон

Hi-techБизнес

Почему порой так сложно договориться со своим гаджетом

 

Мода на «яблочные» гаджеты подогрела интерес общественности к управлению смартфонами и планшетами голосом. Хотя Apple в этой сфере никак нельзя назвать первопроходцем: набирать номер телефона, называя его цифры, или находить нужное имя в телефонной книжке — все это было вполне возможно уже несколько лет назад. А голосовой поиск, реализованный Google, успешно работает на всех современных Android-устройствах, причем он понимает русский язык, чего не скажешь о последней модной новинке — технологии распознавания голоса Apple Siri. Сегодня речь идет о том, что разговор с гаджетом станет интереснее. Но вот намного ли?

Надо сказать, что распознавание речи — это сложнейший продукт исследовательской мысли, за которым стоят серьезные научные школы. Во всем мире около дюжины компаний с собственными голосовыми технологиями. А исходных научных школ вообще, по сути, две: одну представляет американская компания Nuance Communications, вторую — питерская команда «Центра речевых технологий» (ЦРТ). Внимание наших разработчиков традиционно было сосредоточено на проектах для госструктур, правоохранительных органов и т. п. — там, где востребованы их технологии очистки голоса от посторонних шумов, точная идентификация говорящего человека и т. д. А вот до массового рынка быстрее дошли технологии Nuance. Именно они, как рассказывает Мартин Веселка, директор по продажам Nuance Communications в Центральной и Восточной Европе, работают в гаджетах Samsung, Nokia, HTC, Motorola и других. И Apple также. « Причем она ведет себя весьма агрессивно, — отмечает Игорь Ашманов, генеральный директор «Наносемантики», — скупает менее крупные компании и практически сразу после покупки закрывает их, явно стремясь к монополизму на этом рынке».

На фоне этого глобального роста ЦРТ выглядит субтильно. Однако с точки зрения собственно механизмов распознавания голоса оба источника технологий находятся приблизительно на равных позициях. Кажется лишь, что Apple умудрилась затолкать в компактный корпус смартфона огромную вычислительную мощь, необходимую для работы голосовых алгоритмов. Но это не совсем так, поясняет Алексей Калачев, руководитель отдела продаж компании «МакЦентр»: «Голосовое управление серьезно ограничено аппаратными и программными возможностями смартфонов. Поэтому Apple использует для обработки команд мощный удаленный сервер: iPhone записывает фразу, произнесенную пользователем, и отправляет полученный файл на этот сервер, где фраза распознается и возвращается назад в iPhone в виде текстовой команды для смартфона». Решение действительно простое и к тому же позволяет голосовому движку распознавания быть независимым от конкретной платформы смартфона, будь то iOS, Android или Windows Phone 7. Одно условие — для его работы требуется подключение к Интернету по сети 3G или Wi-Fi.