Компьютерра PDA 19.06.2010-25.06.2010 | страница 43
Принципиальное отличие Watson от Deep Blue заключается в том, что если шахматный автомат имеет дело со строго логическими правилами игры, то машина, распознающая "естественную речь", сталкивается в куда более сложными правилами языка и многочисленными искажениями и отклонениями от них. Но самая большая сложность заключается в том, что люди, сами того не осознавая, общаются в рамках своего культурного и социального контекста. В разговорной речи полно намёков, аллюзий и коннотаций, отсылок к неким общим для конкретной общественной среды фактам, понятиям и явлениям. В их числе и религиозные представления, и политические убеждения, и всевозможные произведения искусства – от книг и картин до кинофильмов и компьютерных игр.
Для эффективной обработки подобной информации используются статистические алгоритмы, позволяющие путём анализа самых разнообразных документов устанавливать связь разных понятий друг с другом. Проще говоря, она определяет, какие слова чаще всего употребляются вместе. К примеру, "Кремль" чаще связан со словами "Россия", "Москва", чуть реже с "Казань", "Нижний Новгород", ещё реже – с "собор", "икона"" и т.п. Хотя эти алгоритмы известны давным-давно, полноценно применять их стало возможно лишь в последнее десятилетие – после кардинального роста производительности вычислительной техники и снижения стоимости накопителей для хранения огромных массивов данных.
Команда Феруччи загружает в память IBM Watson миллионы всевозможных документов – учебники, энциклопедии, справочники, художественную и религиозную литературу. Для анализа вопросов одновременно используется более сотни алгоритмов, предлагающих сотни возможных решений. Затем другие алгоритмы оценивают достоверность потенциальных ответов, отсеивая невозможные в силу объективных причин (например, несоответствия даты события и лет жизни действующих лиц) и маловероятные. Чем больше будет получено одинаковых ответов, тем выше вероятность, что они правильны – в процессе игры, на табло выводится рейтинг из нескольких самых вероятных ответов, помимо чаще всего встречающегося.
К 2008 году IBM Watson переместился из разряда "неудачников" на верхние строчки так называемого "облака победителей", состоящего из людей, в 50% случаев успевающих первыми нажать кнопку, сигнализирующую о готовности к ответу и затем в 85-95% случаев дающих правильный ответ. В IBM даже договорились с продюсерами Jeopardy о проведении осенью 2010 года специальной серии игр с участием Watson и победителей прошлых лет. Для подготовки к этим играм (то есть фактически для совершенствования алгоритмов) был воссоздан примерный интерьер студии викторины и стали проводиться испытания с участием живых игроков и ведущего. При этом, как и полагается, "Ватсон" даёт свои ответы вслух синтезированным компьютерным голосом, чем немало веселит присутствующих.