Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим | страница 36



Получая огромные массивы данных нового типа, в некоторых случаях можно пренебречь точностью, если удается спрогнозировать общие тенденции. Мы живем как раз в условиях такого парадокса. Небольшой магазин может подсчитать прибыль к концу дня вплоть до копейки, но мы не стали бы (да и не смогли бы) проделывать то же самое с ВВП страны. В условиях перехода к большим масштабам меняется не только ожидаемая степень точности, но и практическая возможность ее достижения. Отношение к данным как к чему-то несовершенному и неточному (пусть поначалу и вопреки логике) дает возможность делать всеобъемлющие прогнозы, а значит, лучше понимать окружающий мир.

Получается, что беспорядочность не является неотъемлемой частью больших данных как таковых. Она скорее результат несовершенства инструментов, которые мы используем для измерения, записи и передачи информации. Если бы технологии вдруг стали совершенными, проблема неточности исчезла бы сама собой. Беспорядочность — не внутренняя характеристика больших данных, а объективная реальность, с которой нам предстоит иметь дело. И, похоже, она с нами надолго. Как правило, кропотливое повышение точности нецелесообразно с экономической точки зрения, поскольку польза от гораздо большего количества данных выглядит более убедительно. Происходит смещение центра внимания, как и в предыдущую эпоху, когда специалисты по сбору статистики отказались от наращивания размеров выборки в пользу увеличения случайности. Теперь же мы готовы мириться с незначительными неточностями в обмен на дополнительные данные.

В рамках проекта Billion Prices Project[51] можно найти занимательный пример. Каждый месяц американское Бюро статистики труда публикует индекс потребительских цен (ИПЦ), который используется для расчета уровня инфляции. Эти цифры крайне важны для инвесторов и компаний. Федеральная резервная система учитывает ИПЦ при решении вопроса о повышении или понижении процентных ставок. Основной оклад компаний увеличивается с поправкой на инфляцию. Федеральное правительство учитывает величину оклада при расчете пособий (таких как пособие по социальному обеспечению), а также процента, выплачиваемого по некоторым облигациям.

Чтобы получить эти цифры, сотни сотрудников бюро по телефону, факсу или лично связываются с магазинами и офисами в 90 городах по всей территории США. В итоге они формируют отчет из 23 000 цен на все товары и услуги — от помидоров до такси. На это уходит около 250 миллионов долларов США в год. В такую сумму обходятся однородные, понятные и упорядоченные данные. А к моменту публикации они успевают устареть на несколько недель.