Том 13. Абсолютная точность и другие иллюзии. Секреты статистики | страница 11



При расчете дисперсии ситуация выглядит несколько иначе. Если дана генеральная совокупность, то нужно использовать формулу, указанную выше. Если же дана выборка, а мы хотим оценить дисперсию генеральной совокупности, используется следующая формула:


Почему? Дело в том, что при работе с выборками вариация рассчитывается с использованием среднего значения по выборке, а не среднего значения генеральной совокупности, которое мы хотим найти. Можно сказать, что среднее значение выборки подстраивается под данные выборки, что ведет к недооценке вариации генеральной совокупности. При делении на (-1) результат будет чуть больше, и он будет точнее описывать дисперсию генеральной совокупности. При делении на 4 или на 3 разница окажется большой, но при делении на 100 или на 99 разница будет невелика. На практике для больших объемов выборки подобные расхождения не влияют на результат.

Если эта тема кажется вам сложной и вы что-то не понимаете, не волнуйтесь. Если при решении задачи вам придется выбирать между двумя формулами, считайте, что речь идет о выборке. В этом случае нужно делить на (n — 1). Если вы используете статистическую программу, где нет возможности выбора из двух формул, знайте: в программе используется формула для выборки.



х¯> — среднее арифметическое.

σ>n >— среднеквадратическое отклонение в случае, когда расчет выполняется для всей генеральной совокупности и интерес представляет среднеквадратическое отклонение «всех» данных.

σ>n-1> — среднеквадратическое отклонение в случае, когда расчет выполняется для выборки и стоит задача оценить среднеквадратическое отклонение всей генеральной совокупности, из которой взята выборка.


Статистические функции на калькуляторе: одна клавиша используется для расчета среднего арифметического, две клавиши — для вычисления среднеквадратического отклонения.

* * *

Резюмируем данные (3): квантили

Некоторые показатели используются часто, но они не характеризуют центр распределения и вариацию. С их помощью «проводят границы» на области данных и получают некие эталонные значения, с которыми можно сравнить все остальные.


Квартили

Если упорядочить данные по возрастанию, медиана разделит множество данных пополам. Первым квартилем называется медиана первой половины; 25 % значений будут меньше него, 75 % — больше. Медиана второй половины называется третьим квартилем, 75 % значений меньше него, 25 % — больше.



Допустим, что первый квартиль зарплаты в вашей компании равен 1000 евро, медиана — 1300 евро, третий квартиль — 2000 евро. Если вы получаете 800 евро, то находитесь среди 25 % тех, кто получает меньше всего. Если ваша зарплата равна 1500 евро, вы входите в 50 % сотрудников, получающих больше остальных, но минимум 25 % зарабатывают больше вас. Если ваша зарплата равна 2100 евро, вы входите в 25 % наиболее высокооплачиваемых сотрудников компании.