Убийственные большие данные | страница 13
Сегодня термин moneyball («денежный мяч») служит условным обозначением любого статистического подхода в областях, где в течение долгого времени господствовала исключительно интуиция. Но пример бейсбола – это пример здорового анализа, который я привела для контраста с более токсичными примерами анализа, которые я считаю действием ОМП и которые появляются во все большем количестве областей нашей жизни. Бейсбольные модели справедливы, в частности, из-за своей прозрачности. Любой человек располагает доступом к статистике и может более или менее понять, как она интерпретируется. Да, конечно, модель одной команды может придавать больше ценности хоум-раннерам, в то время как другие могут их слегка недооценивать из-за того, что сильные отбивающие имеют тенденцию к большому количеству страйк-аутов. Но в любом случае информация о числе хоум-ранов и страйк-аутов доступна для всех интересующихся.
Кроме того, в бейсболе есть статистическая строгость. Его гуру располагают огромным количеством информации, и практически вся она напрямую касается манеры игроков. Более того, эта информация имеет непосредственное отношение к результатам, которые эти гуру пытаются предсказать. Это может показаться очевидным, но, как мы увидим на страницах этой книги, люди, создающие оружие математического поражения, испытывают постоянный дефицит информации как раз о тех типах поведения, которые их больше всего интересуют. В результате они подставляют вместо информации ее подмену (прокси). Они проводят статистические корреляции между чьим-то почтовым кодом или манерой речи и способностью этого человека выплатить кредит или справиться с рабочими обязанностями. Эти корреляции дискриминационны, а некоторые из них и незаконны. Бейсбольные модели по большей части не используют прокси из-за того, что они располагают фактической информацией: мячами, страйками и хитами.
Но самое главное – поток этой информации постоянно обновляется благодаря статистике, собираемой с 12–13 игр ежедневно с апреля по октябрь. Специалисты по статистике могут сравнить результаты этих игр с предсказаниями своих моделей – и увидеть, где они были не правы. Возможно, они предсказали, что реливер-левша пропустит много хитов от бэттеров-правшей – а он в результате их разгромил. В этом случае статистики пытаются подправить свою модель и пристально изучают, как и почему они ошиблись. Возможно, это новый крученый мяч питчера повлиял на их статистику? Или этот питчер лучше играет по вечерам? Все, что они узнают, они снова загрузят в модель, чтобы еще тоньше настроить ее. Именно так работают модели, заслуживающие доверия. Они постоянно взаимодействуют с миром, который они пытаются понять или предсказать. Если условия меняются – модель должна меняться вместе с ними.