Том 13. Абсолютная точность и другие иллюзии. Секреты статистики | страница 56





* * *

Вес, рост, коэффициент корреляции и его значение

Мы знаем, что рост и вес человека связаны и что высокие люди обычно весят больше, чем низкие (разумеется, существуют исключения, но мы говорим об общем правиле). Здесь речь не идет о строгой связи: нет математической формулы, с помощью которой можно вычислить вес человека, зная его рост. Тем не менее существует тенденция, определенная взаимосвязь.

На следующей диаграмме показана связь роста и веса в группе из 92 студентов университета (использовались данные, входящие в пакет статистических программ Minitab, о котором мы уже упоминали в главе 1).



Соотношение между весом и ростом в группе из 92 студентов.


Как вы охарактеризуете эту зависимость? Она «сильная», «заметная» или «слабая»? Как вы понимаете, в подобных ситуациях необходимо оценивать зависимость более точно. Для этого используется показатель, называемый коэффициент корреляции (иногда его называют коэффициентом корреляции Пирсона).

Формула для вычисления коэффициента корреляции несколько громоздка, но вывести ее нетрудно (не беспокойтесь, мы не будем выводить эту формулу). По сравнению с другими похожими показателями коэффициент корреляции обладает многими преимуществами: его значения всегда лежат в интервале от —1 до 1 и не зависят от единицы измерения исходных данных. В нашем случае коэффициент корреляции не изменится, если мы будем использовать сантиметры и килограммы вместо дюймов и фунтов (как в исходных примерах).

Если коэффициент корреляции равен 1, это означает, что между двумя переменными существует строгая зависимость. При увеличении значения одной переменной значение другой также увеличится. В этом случае между переменными действительно присутствует математическая зависимость, и зная значение одной переменной, можно точно вычислить значение другой. Однако в реальности подобная ситуация встречается крайне редко. Если коэффициент корреляции равен, например, 0,8, это означает наличие четкой взаимосвязи. В нашем примере коэффициент корреляции равен 0,785. Если он равен нулю, это указывает на отсутствие какой-либо взаимосвязи. Отрицательные значения означают то же, что и положительные, с единственной разницей: с ростом значения одной переменной значение другой будет не увеличиваться, а уменьшаться.



Расчет коэффициента корреляции с помощью Excel.


Однако этот показатель имеет свои недостатки (ничто не совершенно!). Если взаимосвязь между переменными отсутствует, не следует ожидать, что коэффициент корреляции будет равен нулю. Это будет означать, что данные распределены абсолютно равномерно, что не встречается на практике. Коэффициент корреляции может быть примерно равным нулю, но что именно означает это «примерно равен»?