Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим | страница 47



В прошлом специалистам из главного офиса пришлось бы заранее собрать данные и проверить идею. Теперь же, имея столько данных и улучшенные инструменты работы с ними, выявлять корреляции стало куда быстрее и дешевле.

Корреляционный анализ показал свою высокую эффективность задолго до больших данных. Эту концепцию в 1888 году выдвинул сэр Фрэнсис Гальтон, двоюродный брат Чарльза Дарвина, заметив взаимосвязь между ростом мужчин и длиной их предплечий. Математические расчеты, лежащие в основе корреляционного анализа, относительно просты и надежны. Благодаря этим характерным особенностям анализ стал одним из наиболее широко используемых статистических показателей. Но до перехода на большие данные корреляции имели ограниченную эффективность. Поскольку данные были скудными, а их сбор — дорогостоящим, специалисты по сбору статистики нередко интуитивно определяли вероятную закономерность, а затем собирали соответствующие данные и проводили корреляционный анализ, чтобы выяснить, насколько эта закономерность соответствовала действительности. В контексте службы Google Flu Trends это означало бы, что нужно предположить условия поиска, которые коррелируют с распространением гриппа, а затем провести корреляционный анализ, чтобы убедиться в правильности этих предположений. Учитывая набор данных Google из 50 миллионов различных условий поиска и более трех миллиардов запросов в день, интуитивно выбрать наиболее подходящие из них для тестирования не представляется возможным.

Таким образом, в эпоху малых данных корреляционный анализ утратил свою первостепенность. Даже сегодня термин «интеллектуальный анализ данных» в научных кругах звучит неодобрительно. Его противники острят: «Поиздевайтесь над данными достаточно долго — и они будут готовы признать что угодно».

Вместо того чтобы полагаться на простые корреляции, эксперты пытались интуитивно нащупать подходящие закономерности, исходя из гипотез в рамках определенных теорий — абстрактных представлений о принципах работы чего-либо. Затем эксперты получали соответствующие данные и проводили корреляционный анализ для проверки этих закономерностей. Если они оказывались ошибочными, эксперты, как правило, упрямо пробовали еще раз (на случай, если данные были собраны неправильно), пока, наконец, не признавали, что исходная гипотеза (или даже теория, на которой она основана) требует доработки. Знания совершенствовались путем проб и ошибок, связанных с гипотезами. Процесс был очень медленным, поскольку личные и общие предубеждения мешали объективно оценить разработанные гипотезы, их применение и выбранные в итоге закономерности. И все это для того, чтобы в большинстве случаев в итоге узнать, что мы ошибались. Это был трудоемкий процесс, зато он годился для работы с малыми данными.