Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим | страница 57



В данном случае считалось, что Йозеф Майстер вылечился благодаря введению вакцины. Но под вопросом остаются две причинно-следственные связи: одна — между вакциной и вирусом бешенства, другая — между укусом бешеной собаки и развитием болезни. Даже если первая связь верна, то вторая — лишь в редких случаях.

Ученым удалось решить вопрос наглядности причинно-следственных связей с помощью экспериментов, в которых можно было применить или исключить отдельно взятую предполагаемую причину. Если применение причины влияло на результат, это означало наличие причинно-следственной связи. Чем тщательнее контролировались обстоятельства, тем выше была вероятность того, что эта связь правильная.

Таким образом, как и корреляции, причинность редко удается (если вообще возможно) доказать. Можно лишь показать ее с высокой степенью вероятности. Но, в отличие от корреляций, эксперименты для подтверждения причинно-следственных связей, как правило, неприменимы на практике или ставят непростые этические вопросы. Какие эксперименты помогут определить лучшие среди 50 миллионов условий поиска, прогнозирующих грипп? А в случае прививки от бешенства — неужели мы смогли бы допустить мучительную смерть десятков, а может, и сотен пациентов в качестве «контрольной группы», которой не сделали прививку, имея нужную вакцину? Даже применимые на практике эксперименты остаются дорогостоящими и трудоемкими.

Расчет корреляций, как правило, проводится быстрее и с меньшими затратами. В отличие от причинно-следственных связей, существуют математические и статистические методы для анализа корреляций, а также необходимые цифровые инструменты для уверенной демонстрации силы взаимосвязей.

Корреляции не только ценны сами по себе, но и указывают способ исследования причинно-следственных связей. Демонстрируя потенциальную взаимосвязь между явлениями, они могут стать предметом дальнейшего исследования с целью убедиться в наличии причинно-следственной связи и выяснения ее причин. Этот недорогой и быстрый механизм фильтрации снижает затраты на причинно-следственный анализ за счет специально контролируемых экспериментов. Благодаря корреляциям мы имеем возможность уловить важные переменные и с их помощью провести эксперименты для исследования причинности.

Однако необходимо проявить осторожность. Корреляции — мощный инструмент не только потому, что они показывают полную аналитическую картину, но и потому, что делают ее понятной. Но, как правило, эта картина омрачается, как только мы снова начинаем искать причинность. Kaggle — компания, которая организует открытые конкурсы по интеллектуальному анализу данных среди компаний, — провела конкурс по анализу качества подержанных автомобилей. Агент по продаже подержанных автомобилей предоставил данные, на основе которых конкурсанты-статистики должны были создать алгоритм, прогнозирующий, какие из автомобилей, представленных на аукционе перекупщиков, вероятнее всего, имеют неисправности. Корреляционный анализ показал, что вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей.