Искусственный интеллект на службе бизнеса | страница 22
Раньше отток клиентов прогнозировали статистическим методом, называемым «регрессия». Научные исследования позволили усовершенствовать его.
Ученые предложили и протестировали сотни различных методов регрессии в теории и на практике.
Регрессия делает прогноз на основе средних показателей прошлого. Например, если вам необходимо определить, пойдет ли завтра дождь, и у вас есть только данные за предыдущие семь дней, то оптимально использовать средний показатель. Если дождь лил два дня из семи, то вероятность завтрашних атмосферных осадков составит примерно два из семи, то есть 29 %. Но благодаря всему, что нам теперь известно о прогностике, мы можем сконструировать модели, способные извлекать из контекста больше данных и точнее рассчитывать средний показатель.
Мы делали это с помощью так называемого условного среднего значения. Например, если вы живете на севере Калифорнии, то из опыта знаете, что вероятность осадков зависит от времени года – она ниже летом и выше зимой. Таким образом, если зимой вероятность дождя достигает 25 %, а летом – 5 %, вы не считаете, что завтра она составит 15 %. Почему? Потому что вам известно, зима сейчас или лето, и прогнозируете вы с учетом этих данных.
Поправка на сезон – только одно из условий среднего значения (хотя и распространенное в розничной торговле). Учитываются также время суток, уровень загрязнения, облачность, температура океана и вообще любая доступная информация.
Поправки можно делать на несколько факторов одновременно: пойдет ли завтра дождь, если сегодня пасмурно, сейчас зима, дождь идет в 320 км к западу, в 160 км к югу солнечно, земля влажная, температура Северного Ледовитого океана низкая и дует юго-западный ветер со скоростью 24 км/ч? Однако все это обрастает громоздкими вычислениями. Только расчет среднего для семи категорий данных дает 128 комбинаций, а с дополнительными данными – в разы больше.
До машинного обучения множественная регрессия была эффективна для учета нескольких условий без необходимости рассчитывать десятки, сотни и тысячи условных средних значений.
Регрессия собирает данные и пытается извлечь результат с минимумом прогностических ошибок и с максимальной «точностью приближения», как ее называют.
К счастью, математическое значение термина точнее, чем это может показаться, исходя из формулировки. Регрессия минимизирует прогностические ошибки среднего значения и за крупные ошибки карает строже, чем за мелкие. Это достаточно надежный метод, особенно для работы с относительно небольшим объемом данных и при условии понимания, чт