Беседы об информатике | страница 31



Вычислив предел относительных частот, с которыми встречаются символы алфавита, К. Шеннон определил среднее количество информации, приходящееся на один символ. Среднее количество информации, приходящееся на символ, оказалось обратно пропорциональным вероятности, с которой данный символ встречается в тексте.

Пока речь идет об одной-единственной задаче: как передать по каналу связи некоторое сообщение за минимальное время? С учетом огромного числа различных каналов связи в мире и их загруженности даже ничтожное сокращение затрат на передачу одного сообщения сулило грандиозный, как теперь говорят, экономический эффект. Так вот, учет частоты, с которой встречаются различные буквы английского алфавита, а теперь мы скажем — учет вероятностей, с которыми встречаются эти буквы, — позволяет уменьшить среднее количество посылок на символ приблизительно на 12 процентов. Это огромная величина. К. Шеннон стал бы мультимиллионером, если бы до него соответствующие методы уже не были предложены Морзе.

Все ли возможности исчерпаны учетом вероятностей появления отдельных букв?

Конечно, не все. Двухбуквенные сочетания также встречаются с различными вероятностями. Каждый знающий английский язык хорошо представляет себе, что сочетания «th» или «ou» встречаются чаще, чем другие. Дальнейший выигрыш был получен с учетом вероятности двухбуквенных, трехбуквенных и так далее сочетаний. Снова возникает интересная подробность. Вероятность, с которой встречается некая пара произвольно выбранных из алфавита букв (без учета особенностей языка), равна произведению вероятностей появления каждой буквы. Произведению, а не сумме.

Не правда ли, знакомая нам ситуация? Среднее количество информации, приходящееся на сочетание из двух символов, равно произведению средних количеств информации, приходящихся на каждый символ. Это, что ни говори, неудобно. К. Шеннону не оставалось ничего другого, как пойти по пути, уже проторенному Р. Хартли: использовать не сами вероятности, а логарифмы этих вероятностей. В результате получилась знаменитая мера количества информации Шеннона.

Чтобы окончательно оправдать свой предельный переход, К. Шеннон ввел в рассмотрение стационарный стохастический источник, то есть гипотетическое устройство, которое в каждый момент времени из набора символов с некоторой заданной вероятностью выбирает один символ. Что означает слово «стационарный» в нашем случае?

Вероятности появления каждого символа не меняются во времени. Требование к стационарности совершенно необходимо. Сама по себе вероятность — это предел отношения количества случаев, когда встречается данный символ, к длине строки символов при условии, что длина строки стремится к бесконечности. А стремление длины строки к бесконечности означает, что время передачи