Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим | страница 30
Представьте себе, что вам нужно измерить температуру в винограднике. Если у вас только один датчик температуры на весь участок земли, необходимо убедиться, что он работает точно и непрерывно. Если же для каждой из сотен лоз установлен отдельный датчик, вероятно, рано или поздно какой-то из них станет предоставлять неправильные данные. Полученные данные могут быть менее точными (или более «беспорядочными»), чем от одного точного датчика. Любой из отдельно взятых показателей может быть ошибочным, но в совокупности множество показателей дадут более точную картину. Поскольку набор данных состоит из большего числа точек данных, его ценность гораздо выше, и это с лихвой компенсирует его беспорядочность.
Теперь рассмотрим случай повышения частоты показателей. Если мы возьмем одно измерение в минуту, то можем быть уверены, что данные будут поступать в идеально хронологическом порядке. Измените частоту до десяти или ста показателей в секунду — и точность последовательности станет менее определенной. Так как информация передается по сети, запись может задержаться и прибыть не по порядку либо попросту затеряться. Информация получится немного менее точной, но ввиду большого объема данных отказаться от строгой точности вполне целесообразно.
В первом примере мы пожертвовали точностью отдельных точек данных в пользу широты, получив взамен детали, которые не удалось бы обнаружить другим путем. Во втором случае отказались от точности в пользу частоты, зато увидели изменения, которые иначе упустили бы из виду. Такие ошибки можно устранить, если направить на них достаточно ресурсов. В конце концов, на Нью-Йоркской фондовой бирже производится 30 000 сделок в секунду, и правильная последовательность здесь чрезвычайно важна. Но во многих случаях выгоднее допустить ошибку, чем работать над ее предотвращением.
Мы можем согласиться с беспорядочностью в обмен на масштабирование. Один из представителей консалтинговой компании Forrester однажды выразился так: «Иногда два плюс два может равняться 3,9. И это достаточно хорошо».[40] Конечно, эти данные не могут быть абсолютно неправильными, и мы готовы в некоторой степени пожертвовать точностью в обмен на понимание общих тенденций. Большие данные преобразуют цифры в нечто более вероятностное, чем точность. В этом процессе обществу придется ко многому привыкнуть, столкнувшись с рядом проблем, которые мы рассмотрим в этой книге. Но на сегодняшний день стоит просто отметить, что при увеличении масштаба беспорядочность неизбежна, и с этим нужно смириться.