Искусственный интеллект на службе бизнеса | страница 24



Например, центр Teradata в Университете Дьюка в 2004 году провел турнир по анализу данных для прогнозирования оттока клиентов. Тогда подобные события были редкостью; любой мог подать заявку, а выигрыш выплачивался наличными. В призовых заявках использовались регрессионные модели. Некоторые методы машинного обучения продемонстрировали неплохие результаты, но методы нейронной сети, впоследствии совершившие революцию в ИИ, никуда не годились. В 2016 году все выглядело уже наоборот: в лучших моделях прогнозирования оттока клиентов использовалось машинное обучение, а модели с глубоким обучением (нейронными сетями) обошли все остальные.

Что же изменилось? Во-первых, объем данных и мощность компьютеров стали достаточными для повсеместного использования машинного обучения. В 1990-е было трудно собрать действительно большой объем данных. Например, в классическом исследовании прогнозирования оттока использовалось 650 клиентов и менее 30 переменных.

К 2004 году компьютерная обработка и хранение данные усовершенствовались. В турнире Дьюка обучающий набор данных содержал информацию о сотнях переменных для десятков тысяч клиентов. При таких условиях методы машинного обучения улучшились до уровня регрессии, если не превзошли его.

Современные исследователи прогнозируют отток на основе тысяч переменных и миллионов клиентов. Возросшая мощность компьютеров дала возможность анализировать огромный объем данных, включая, помимо чисел, тексты и изображения.

Например, в модели прогнозирования оттока клиентов мобильной связи исследователи использовали данные почасовой истории звонков помимо стандартных переменных, таких как сумма счета и пунктуальность оплаты.

Методы машинного обучения улучшились также за счет эффективного использования доступных данных. В конкурсе Дьюка ключевой составляющей успеха был выбор, какие данные использовать из сотен имеющихся и какую применять статистическую модель. В лучших методах того времени, будь то машинное обучение или классическая регрессия, переменные и модель выбирали с помощью комбинации статистических критериев и интуиции. Современные методы машинного (и особенно глубокого) обучения позволяют гибкость, то есть переменные сочетаются самым неожиданным образом. Скажем, клиенты со счетами на большие суммы, расходующие минуты в начале расчетного периода, уйдут с меньшей вероятностью, чем клиенты со счетами на более крупные суммы, но расходующие минуты в конце расчетного периода. Или клиенты с внушительным счетом за роуминг в выходные, которые к тому же задерживают оплату и часто обмениваются текстовыми сообщениями, уйдут с повышенной вероятностью. Такие комбинации могут сыграть в прогнозах решающую роль, но их трудно предусмотреть. И поэтому их не включают в стандартные регрессионные модели. Машинное обучение предоставляет компьютеру выбор комбинаций и взаимодействий, имеющий значение для него, а не для программиста.