Убийственные большие данные | страница 115
Время от времени меня спрашивают, как преподавать этику специалистам по обработке данных. Я обычно начинаю с обсуждения того, как построить модель, подсчитывающую e-score, и спрашиваю у собеседников, имеет ли смысл закладывать в нее расовый фактор. Мне всегда отвечают, что это несправедливо и, возможно, даже незаконно. Следующий вопрос – стоит ли включать в анализ почтовый индекс. Поначалу это кажется вполне логичным. Но студентам очень быстро становится ясно, что они просто включают предубеждения прошлых времен в свою модель – что история того, как люди из данного региона в среднем ведут себя, должна хотя бы отчасти определять, какого рода кредит вправе получить проживающий там человек.
Другими словами, составители моделей для e-scores должны пытаться ответить на вопрос: «Как люди вроде вас вели себя в прошлом?», тогда как в идеале они должны спрашивать: «Как вы сами вели себя в прошлом?»
Разница между этими двумя вопросами огромна. Представьте себе, что ответственный человек с высокой мотивацией, но скромного иммигрантского происхождения пытается начать собственный бизнес – и он вынужден зависеть от такой системы в вопросе первоначальных вложений. Кто рискнет и даст такому человеку кредит? Уж точно не модель, основанная на подобной демографической и поведенческой информации.
Я должна признать, что в статистической вселенной, которую населяют прокси, они часто работают. Люди достаточно часто оказываются похожи на других людей из той же группы. Богачи чаще покупают круизы и БМВ. Бедняки чаще нуждаются в деньгах до зарплаты. И учитывая то, что статистические модели чаще всего работают, эффективность повышается, а прибыли растут. Инвесторы удваивают спрос на научные системы, которые размещают тысячи людей в том, что им кажется правильными интервалами. Это – триумф Больших данных.
Но что, если конкретный человек окажется в неправильном интервале? Такое случается. При этом не существует никакой обратной связи, которая помогла бы исправить ошибку. У механизма, обрабатывающего статистику, нет никакой возможности узнать, что он только что отправил ценного потенциального клиента общаться с автоответчиком в колл-центре. Хуже того, у неудачников в нерегулируемой вселенной e-score почти нет возможности пожаловаться и еще меньше возможностей исправить ошибку системы. В царстве ОМП они считаются небоевыми потерями. И учитывая то, что вся непрозрачная система работает где-то на отдаленном сервере, они об этом, как правило, даже не узнают. Большинство из них, вероятно, предполагают – и не без причины, – что жизнь просто несправедлива.