Футболоматика | страница 11
Я не хотел рассматривать Премьер-лигу, потому что заранее знал о ее соответствии распределению Пуассона. Так получилось, что я все-таки остановился на футболе. Я мог бы выбрать любой вид спорта, в котором голы забивают в любое время. Чтобы убедиться в этом, я просмотрел все результаты игр НХЛ в сезоне-2012/13.
Рисунок 1.3. Гистограмма количества голов, забитых в сезоне-2012/13 НХЛ (столбцы), в сравнении с распределением Пуассона (сплошная линия).
За 60 минут основного времени в среднем были забиты 5,2 шайбы. Рисунок 1.3 показывает гистограмму количества голов в 720 сыгранных играх сезона. Сплошная линия – соответствующее распределение Пуассона.
Более высокое среднее число голов смещает пик в гистограмме вправо, но симуляция снова соответствует данным. Данные и модель практически не отличаются, и небольшое расхождение в матчах с четырьмя забитыми шайбами может объясняться колебаниями от одного сезона к другому[5]. В хоккее голы забиваются чаще, но ровно так же случайно, как и в футболе.
Те, кого лягнула лошадь
Если вы станете мыслить категориями моделирования случайных процессов и распределения Пуассона, то вы будете видеть их повсюду. Если вы изучаете статистику в университете, лучшая (и единственная) шутка лектора заключается в том, что прибытие автобуса также попадает под распределение Пуассона. Автобусная компания отправляет транспорт по расписанию, но на его путь влияет множество различных факторов: старик слишком долго заходит в автобус или велосипедист занял полосу для движения автобусов. Еще один классический пример – количество ламп накаливания, которое вам приходится менять в доме ежегодно. Каждый раз, когда вы включаете свет, есть маленький шанс того, что элемент перегорит. Суммируйте все подобные случаи, и вы получите распределение Пуассона.
Это распределение было названо в честь Симеона Дени Пуассона – француза, который первым описал это явление в начале XIX века. Однако его работа делала акцент на математические уравнения, лежащие в основе распределения, не рассматривая его использование для моделирования на практике. В том смысле, в котором использую его я, распределение применял поляк Ладислав Борткевич, который работал в Германии в 1898 году[6]. Он исследовал два набора данных. Первым был набор жутких статистических данных за 24 года о самоубийствах детей в возрасте до десяти лет. Второй (лишь немногим менее шокирующий) касался солдат, которые умерли после того, как их случайно лягнула или иным образом ударила лошадь. Борткевич в течение двадцати лет изучал по четырнадцать полков ежегодно, отмечая количество солдат, убитых таким образом. Очевидно, он не понял, что всего несколько лет назад была создана Футбольная лига Англии. Этот факт мог предоставить ему все нужные данные без необходимости вникать в статистику смерти Германии.