Hello World. Как быть человеком в эпоху машин | страница 40



Допустим, вы хотите знать, можно ли освободить некое лицо под залог. Как и при условно-досрочном освобождении, решение принимается на основе прямого вычисления. Вина значения не имеет. Вас интересует только прогноз: нарушит ли обвиняемый условия освобождения под залог, если выпустить его из заключения?

Вам в помощь дана достаточная информация о множестве других арестованных, как о тех, кто, оказавшись на свободе, ударился в бега или снова совершил противоправные действия, так и о законопослушных. Располагая этими данными — характеристиками на каждого правонарушителя, — вы могли бы нарисовать дерево решений наподобие изображенного ниже и получить блок-схему. Имея дерево решений, вы сможете с его помощью предсказать поведение следующего правонарушителя. Выбирайте нужную ветвь соответственно имеющимся сведениям о нем, пока не придете к итоговому выводу. Прогнозы будут верными при условии, что характеристики объектов исследования сходны с предыдущими.




И тут наше школьное дерево решений начинает падать. Ведь, конечно же, не каждый правонарушитель в точности повторяет один из предыдущих сценариев. Само по себе такое дерево даст массу ошибочных прогнозов. И не потому, что мы начали с простейшего примера. Даже при наличии обширной базы данных о предыдущих делах и самого разветвленного алгоритма действий одно отдельно взятое дерево даст в лучшем случае чуть более точные ответы, чем простое угадывание.

Но вы получите совсем другой результат, если составите несколько деревьев. Можно использовать не все данные сразу, а применить метод разбиения, или декомпозиции. Сначала вы строите тысячи маленьких деревьев для различных подразделов общего набора данных — так называемый ансамбль. Затем, когда появляется очередной обвиняемый, вы предлагаете каждому дереву решить, стоит или нет отпускать его под залог. Вероятно, деревья проголосуют не единогласно, какие-то могут и не угадать, но вы усредните их ответы и тем самым существенно повысите точность прогноза.

Это похоже на “помощь зала” в игре “Кто хочет стать миллионером”. Полный зал незнакомых людей часто оказывается умнее одного вашего знакомого интеллектуала. Между прочим, вероятность правильного ответа в результате “помощи зала” составляет 91 %, а спасительная соломинка в виде “звонка другу” гарантирует удачу всего лишь в 65 % случаев>[102]. Ошибки многих зрителей взаимно компенсируют друг друга, и в конечном итоге оказывается, что много голов лучше одной.