Компьютерра, 2006 № 04 (624) | страница 63
Очевидно, что данные о клиентах, например, американского банка мало подойдут для адекватной оценки российских заемщиков. Совершенно другие доходы, уровень жизни, менталитет делают невозможным использование такой БД даже с сильной коррекцией результатов. Классический подход к скорингу[Регрессионный анализ остается самым распространенным методом, использующимся в скоринге] предусматривает принятие положительного решения о выдаче кредита в том случае, если выходной показатель превышает некий критический порог. А выходной показатель вычисляется как сумма численных характеристик параметров (возраст, количество иждивенцев, доход, наличие кредитной карты и т. д.), помноженных на соответствующий «вес» (значимость показателя в общей оценке). Да и само слово «scoring» можно перевести как «подсчет очков». Обучение системы сводится к подгонке «весов». Так вот «веса» одного и того же параметра для США и РФ будут существенно различаться. Кроме того, очевидно, что кредитоспособность заемщика зависит не только от его собственных характеристик, но и от общей макроэкономической ситуации в стране — например, от уровня инфляции. Кстати, бескрайние просторы нашей Родины накладывают дополнительные трудности. Настраивать систему многофилиальному банку приходится для каждого региона отдельно, так как в разных уголках России люди отличаются как доходами, так и менталитетом.
В компании «Франклин & Грант», специалисты которой занимаются созданием математических моделей и их программной реализацией для решения финансовых задач, утверждают, что в России вообще не существует кредитных историй достаточной длины для обучения системы. Что уж говорить о новых типах кредитных продуктов, появляющихся в стране. Например, об ипотеке, собирать данные по которой для настройки системы нужно еще лет десять.
В ХКФБ проблему решили довольно оригинально, использовав для обучения своей системы скоринга базу данных о 4,2 млн. заемщиков из стран Центральной Европы. В этом случае «веса» различных исходных параметров получились достаточно схожими с российскими, и после небольшой коррекции под национальную специфику и текущий банк система стала работоспособной.
Если имеются выборки сравнительно небольшого размера, разумно использовать иные методы анализа, такие как метод ближайших соседей или дерево классификаций. В первом случае новому заемщику, исходя из каких-либо его характеристик, система ставит в соответствие определенную точку с соответствующими координатами. В зависимости от того, каких точек по соседству с данной большинство: «плохих» или «хороших» (которым соответствуют люди, отдавшие или не отдавшие кредит), принимается решение о выдаче денег. При использовании деревьев классификаций система обучается следующим образом. На основе имеющихся данных строится дерево. При построении все известные ситуации обучающей выборки сначала попадают в верхний узел, а потом распределяются по узлам (рис. 1). Критерий разбиения — это различные значения входного фактора.