Искусственный интеллект на службе бизнеса | страница 33
Почему именно шесть тысяч? Специалисты по обработке и анализу данных пользуются отличным инструментарием для получения необходимого объема информации с учетом желаемой надежности и степени точности прогноза. Эти инструменты называют «расчетом мощности» – они сообщают, сколько единиц требуется для проведения анализа, с тем чтобы прогноз имел смысл[36]. Очевидно, придется искать компромисс: для более точного прогноза необходимо больше анализируемых показателей, а они могут дорого стоить.
Cardiogram требует постоянного сбора данных – посекундного, – и для этого используется Apple Watch: ритм сердечных сокращений варьируется в течение дня, а для точности измерений необходим многократный анализ того, насколько измеренный показатель типичен для конкретного человека. Алгоритмы Cardiogram используют устойчивый поток данных от устройства, которое человек постоянно носит на теле, в противовес результатам отдельных измерений при посещении врача.
Сбор данных потребовал существенных вложений. Пациенты постоянно носили устройства, что не всегда удобно в повседневных действиях (особенно тем, у кого нет Apple Watch). Поскольку речь шла о здоровье, было необходимо соблюдать конфиденциальность, и Cardiogram разрабатывалась с ее учетом, что повысило расходы и снизило способности машины совершенствоваться при помощи обратной связи. Она собирала данные для прогнозов посредством приложения, а все данные хранились на устройстве.
Далее мы обсудим разницу между статистическим и экономическим подходами к количеству требуемой информации. (Вопросы конфиденциальности мы рассмотрим вместе со стратегиями в части IV.)
Экономия на масштабе
Чем больше данных, тем лучше прогноз. Но сколько их нужно? Преимущества дополнительной информации (единиц анализа, типов переменных и частоты) могут увеличиваться или уменьшаться вместе с имеющимся объемом данных. Выражаясь экономическим языком, отдача от масштаба может быть возрастающей или убывающей. С чисто статистической точки зрения у данных убывающая отдача от масштаба. Мы получаем больше ценной информации из третьего наблюдения, чем из сотого, и больше из сотого, чем из миллионного. По мере добавления наблюдений к обучающей информации они все меньше и способствуют улучшению прогноза.
Каждое наблюдение приносит дополнительные данные для обоснования прогноза. Cardiogram учитывает промежутки между ударами сердца. Говоря «у данных убывающая отдача», мы подразумеваем, что первых ста ударов достаточно для того, чтобы убедиться, есть у человека нарушения сердечного ритма или нет. Каждый последующий удар менее важен для уточнения прогноза, чем предыдущие.