Хулиномика. Хулиганская экономика. Финансовые рынки для тех, кто их в гробу видал | страница 87
Кроме среднего ещё есть медиана — это когда половина результатов эксперимента больше, а половина меньше этой цифры. Она часто используется в демографии — зарплату по регионам корректнее сравнивать не среднюю, а медианную, потому что очень маленькие или очень большие зарплаты искажают реальную картину. А на медиану они не влияют.
Если нам потребуется матожидание непрерывных функций, то идея там точно такая же, но складывать надо интегралы. Слово страшное (сам его боюсь), но вообще это просто сумма площадей под графиком функции. Например, взять температуру — вероятность того, что термометр покажет у кипятка ровно 100 градусов, равна нулю, потому что он всегда может показать 100 и одну тысячную или 99.999. Таких цифр бесконечное количество, и у каждой конкретной из них вероятность равна нулю. Но можно посмотреть, например, плотность вероятности у какого-либо отрезка.
9.6
Генеральная совокупность против выборки
Теперь пару слов о совокупности. Мы измеряли признаки всех возможных вариантов выпадения кубика, хорошо и годно всё посчитали. Но в реальности результаты экспериментов сосчитать трудно, потому что мы гораздо чаще имеем дело с выборками, а не со всей совокупностью результатов. Возьмём, например, дерево. Хотим мы оценить количество его листьев, берём 5 веток и считаем на них среднее количество листьев. Потом умножаем их на количество веток, и у нас получится примерная (но неплохая) оценка количества листьев на дереве.
Так вот, реальное среднее количество листьев на ветке мы не знаем, а лишь приблизительно определили из пяти наших веток. Его принято обозначать не иксом, а иксом с чертой, и оно тем ближе к иксу, чем ближе количество отобранных нами веток к количеству веток на всём дереве. Если мы возьмём несколько отличающихся веток (а не только самые длинные, например), то наша выборка будет лучше отражать свойства всего дерева. Так и с людьми — если в исследуемой группе есть представители разных городов, профессий, возрастов, то выводы будут точнее и вернее, чем если опросить только вечно пьяных студентов МИРЭА.
В Америке был интересный казус с репрезентативностью выборки, когда журнал «Литерари Дайджест» опросил аж 10 миллионов человек насчёт выборов президента. Это огромное количество респондентов: для достоверной статистики хватило бы 2–3 тысячи правильно собранных ответов. Журнал предсказал победу республиканцу Альфу Лэндону со значительным перевесом (60 на 40), а выборы выиграл демократ Франклин Рузвельт — как раз с таким же перевесом, но в обратную сторону. Дело в том, что большинство подписчиков журнала были республиканцами, а в попытке сгладить это несоответствие журнал рассылал бюллетени по телефонным книгам. Но не учёл забавного факта: телефоны тогда были доступны только среднему и высшему классу общества, а это были в основном республиканцы.