Том 13. Абсолютная точность и другие иллюзии. Секреты статистики | страница 57



Кроме того, значение этого коэффициента зависит от объема исходных данных. Если объем исходных данных невелик, а значение коэффициента корреляции далеко от нуля, это не означает наличие корреляции. Если даны всего лишь два значения каждой переменной, то коэффициент корреляции всегда будет равен 1 или —1 вне зависимости от того, присутствует ли корреляция на самом деле.

На следующей диаграмме представлено 35 точек, коэффициент корреляции равен 0,494. Это значение достаточно далеко от нуля, чтобы можно было говорить о присутствии корреляции? Или же это расположение точек можно получить случайным образом и переменные никак не связаны между собой?



Существует ли взаимосвязь между этими переменными?


Чтобы определить, действительно ли полученный коэффициент корреляции свидетельствует о взаимосвязи (или, если говорить на языке статистики, является ли это значение статистически значимым), используем моделирование. Сгенерируем два множества случайных чисел по 35 чисел в каждом. Очевидно, что эти числа будут никак не связаны между собой, однако коэффициент корреляции между ними не будет строго равен нулю, а будет равняться, например, — 0,123. Если мы заново сформируем эти два множества случайным образом и повторим моделирование 10000 раз, то получим 10000 значений коэффициента корреляции между двумя совокупностями из 35 чисел, которые никак не связаны между собой. Чтобы рассчитать эти значения, используем небольшую программу. Результат ее работы представлен на следующей гистограмме. Вертикальной чертой обозначено значение коэффициента корреляции, полученное нами в предыдущем примере, равное 0,494.



Значения коэффициента корреляции для двух совокупностей из 35 не связанных между собой чисел.


Из гистограммы следует, что коэффициент корреляции действительно может принять полученное значение, если переменные не связаны между собой, но очевидно, что вероятность этого крайне мала. Анализ результатов моделирования показывает (на гистограмме это не заметно), что 12 значений больше 0,494, 9 — меньше —0,494. Это означает, что полученное нами значение (или большее) выпадает примерно два раза из 1000, если исходные переменные независимы.

Может ли быть так, что наш случай — именно тот, что выпадает два раза из 1000? Это неизвестно, но маловероятно. Разумнее всего полагать, что проанализированные нами переменные, соответствующие весу и росту 35 женщин в группе из 92 студентов, взаимосвязаны.