Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим | страница 48
В эпоху больших данных невозможно определить переменные, которые следует рассматривать, лишь на основе личных предположений. Наборы данных слишком велики, а рассматриваемые области, пожалуй, слишком сложны. К счастью, многие ограничения, которые вынуждали нас применять подход на основе гипотез, уже не столь существенны. Теперь у нас настолько много данных и вычислительной мощности, что не приходится вручную выбирать одну закономерность или небольшую горстку наиболее вероятных, а затем изучать их по отдельности. Теперь сложные вычислительные процессы сами выбирают лучшую закономерность, как это было в службе Flu Trends, которая легко и точно обнаруживала лучшие условия поиска из 50 миллионов самых популярных запросов, протестировав 450 миллионов математических моделей.
Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении. А значит, не нужно развивать гипотезу о возможных поисковых запросах людей, чтобы узнать время и территорию распространения гриппа. Не нужно вдаваться в подробности того, как авиакомпании назначают цены на билеты. Не нужно заботиться о кулинарных вкусах покупателей Walmart. Вместо этого достаточно провести корреляционный анализ на основе больших данных, чтобы узнать, какие поисковые запросы наиболее характерны для гриппа, грядет ли рост цен на авиабилеты или чем обеспокоенные домоседы запасаются на время бури. Вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким.
В основе больших данных лежат прогнозы на основе корреляций. Они используются все чаще, и мы порой недооцениваем их новизну. Практическое применение прогнозов со временем будет только расширяться.
Для прогнозирования поведения отдельных лиц существует кредитная оценка заемщика. Компания Fair Isaac Company, известная как FICO, ввела это понятие в 1950-х годах. В 2011-м FICO ввела еще одно понятие — «оценка приверженности лечению». Она анализирует множество переменных, в том числе тех, которые, казалось бы, не имеют отношения к делу (например, как долго люди не меняли место жительства или работы, состоят ли они в браке и имеют ли собственный автомобиль), для того чтобы определить вероятность того, примет ли пациент назначенное лекарство. Оценка помогла бы медицинским сотрудникам экономить средства: они знали бы, кому следует делать напоминания. Между владением автомобилем и приемом антибиотиков нет причинно-следственных связей. Это чистой воды корреляция. Но она вдохновила исполнительного директора компании FICO гордо заявить на встрече инвесторов в 2011 году: «Мы знаем, что вы собираетесь делать завтра».