Разложили по полочкам: как бизнесу работать с Data Science, чтобы получить максимум выгоды
На рынке датасаентисты стоят от 130 до 250 тыс. рублей в месяц, конечная цена зависит от опыта и успешных кейсов. Такие затраты может позволить не каждая компания, поэтому для решения эпизодических задач малому и среднему бизнесу выгоднее привлекать подрядчика. Но нужно понимать, как правильно с ним работать. Директор по развитию и технологиям performance-агентства MediaGuru Александр Ярощук поделился, как НАДО и НЕ НАДО выстраивать отношения “бизнес-датасаентист”, чтобы получить максимальный профит от сотрудничества.
Если бизнес решил инвестировать средства в аналитику, но результат его разочаровал, это еще не говорит о низкой компетенции датасаентиста или бесполезности работы с данными. Проблема может крыться во взаимоотношениях между бизнесом и аналитиком. Сейчас объясню подробнее.
Немного статистики
По результатам исследования консалтинговой компании Accenture, 92% высокоэффективных организаций заявили, что инвестиции в глубокую аналитику окупились. А среди низкоэффективных компаний затраты окупились только у 24% участников исследования.
Специалисты изучили причины, которые помешали некоторым бизнесам получить выгоду. Выяснили, что высокоэффективные компании делают намного больше для преодоления внутренних проблем. В результате Accenture сформировали принцип 5A в аналитике больших данных.
Принцип 5А
- Align — выравнивание ожиданий топ-менеджеров и формирование правильной команды.
- Act — запуск процесса трансформации сбора данных и их переработки.
- Adjust — корректировка подхода всех бизнес-юнитов по мере продвижения процесса трансформации.
- Adopt — использование полученных инсайтов, технологий и экспертизы.
- Adapt — изменение самих процессов принятия решений на основе аналитики на разных уровнях организации.
Вот основные причины безуспешной работы аналитики, которые выявила консалтинговая компания.
Причина 1. Со стороны руководства не было поддержки и осознания важности аналитики на стратегическом уровне. Такая проблема у компаний с высокими финансовыми показателями встречалась в 3 раза реже, чем низкоэффективных (89% против 37%).
Причина 2. Не получилось или не было желания изменить корпоративную культуру. 81% высокоэффективных компаний поддерживают внедрение новаторских и экспериментальных решений. Они понимают, что не все сработает. Такой же позиции придерживаются только 25% низкоэффективных компаний.
Причина 3. Политика компании и стиль управления не готовы к переменам. Такое встречается более чем в 50% низкоэффективных компаний.
Причина 4. Недостаточная вовлеченность всех заинтересованных сторон. 75% высокоэффективных компаний внесли изменения в работе на разных уровнях управления.
Эти препятствия приводят к тому, что компании строят фабрики данных, привлекают квалифицированных и дорогих специалистов, развивают модели продвинутой аналитики и машинного обучения, но не меняют подходов к принятию решений. Результат — почти ничего не меняется!
Чтобы понять, готова ли ваша компания к цифровой трансформации, основанной на аналитике, дайте себе ответы на 8 вопросов.
Чем Data Scientist способен помочь бизнесу?
Data Scientist-ы создают модели прогнозирования и динамического анализа, внедряют алгоритмы автоматизации и обучения. Например, в нашей компании они работают с библиотеками анализа данных Python, MySQL и обладают скиллами по визуализации собранных данных. Нужно понимать, что датасаентист занимается стратегической работой с уже собранной информацией. Соответственно, бизнес, который его привлек, должен обладать серьезным уровнем диджитальной зрелости до начала сотрудничества.
Бизнес может ставить разные задачи аналитику больших данных. Приведу наиболее популярные для нашего агентства.
- Определить, можем ли мы реализовать прогнозы по выполнению целевых показателей.Пример. Среднее число посетителей интернет-магазина в месяц — 100 тыс. человек. Стандартное отклонение — 3,5 тыс. человек.Рекламодатель заказал CPA-стратегию и настоял на штрафе, если за отчетный период будет совершено меньше 9 тыс. транзакций. В ответ агентство предложило включить в договор бонус, если аналитика зафиксирует больше 11 тыс. транзакций.На основе накопленной статистики датасаентист определит вероятность свершения каждой из гипотез.
- Обучить модели для решения логистических и регрессионных задач.Пример. Сервис по продаже автомобилей разрабатывает приложение. В нем можно быстро узнать рыночную стоимость своего авто. В распоряжении датасаентиста исторические данные: технические характеристики, комплектации и цены автомобилей. Нужно построить модель для определения стоимости машины, которая будет загружена в базу.Заказчику важны качество и скорость предсказания, время обучения алгоритмов. Применяя технику градиентного бустинга и модели линейной регрессии, LGBMRegressor, CatBoostRegressor и GradientBoostingRegressor, нам удалось найти оптимальное решение с RMSE 2153. Перебирали модели с различными гиперпараметрами. Победил GradientBoostingRegressor с количеством деревьев 41 и глубиной 6.
- Зашифровать данные.Пример. Есть данные клиентов страховой компании. Нужно разработать такой метод их преобразования, чтобы было сложно восстановить персональную информацию участников базы. Что важно — следует преобразовать данные так, чтобы качество предсказаний не ухудшилось.Для решения задачи численные признаки умножаются на обратимую матрицу. Математически доказано, что измененная в результате умножения матрица не снижает и не меняет предсказаний той же самой линейной регрессии.
- Работать с временными рядами.Пример. Пиццерия собрала исторические данные о заказах на севере Москвы. Чтобы подготовить оптимальное количество свежих ингредиентов на складе в период пиковой нагрузки, нужно спрогнозировать количество заказов на следующий день. Датасаентисту предстояло подобрать модель для такого предсказания, чтобы метрика среднеквадратичной погрешности на тестовой выборке была не больше 48.
Этапы работы с продвинутой аналитикой
Большую часть работы датасаентиста, на удивление, занимает не построение моделей, а подготовка данных — их сбор, систематизация, очистка и трансформация. Давайте по порядку.
- Первый шаг при работе с большими данными — четко определить конечную цель. Она не формулируется абстрактно и должна быть измерима! Например, увеличение прибыли на 40% и более, рост конверсии на 35%, уменьшение простоя оборудования на 30%.
- Создание культуры работы с данными. Работа датасаентиста требует много данных. Очень много данных! И собирать их нужно не как попало. Качественная обработка данных напрямую зависит от культуру работы с ними, включая сбор и хранение. Каждый специалист компании должен осознавать, что любая входящая и исходящая информация несет ценность. К сожалению, для многих это не очевидно, поэтому перед началом работы научите сотрудников бережно собирать и хранить материалы.
- Не жалейте времени на сбор данных. Чем больше услуг и клиентов, тем дольше будет формироваться база. Повторюсь, данных должно быть много! Чем их больше, тем лучше обучаются модели. Соответственно, Data Science принесет более точнее прогнозы и меньше погрешностей.
- Построение моделей. После подготовительной работы строятся разные модели. Сначала они обучаются на 75% собранных данных. После обучения модели тестируются на контрольной выборке — оставшихся 25% данных. Модели, прогноз которых максимально совпал с реальным результатом, — самые подходящие. Не удивляйтесь, если их окажется несколько. Тут, как в математике, к правильному результату могут привести разные решения.
- Проверка результатов. Близимся к финалу — проверяем результаты на боевых данных. Оцениваем разницу между прогнозом и реальностью.
- Уточнение моделей. Необходимо определить причину расхождения прогноза с реальным результатом (если есть). Возможно, модель обучалась на устаревших данных или аналитики во время тестирования искусственно подгоняли результат под прогноз… В любом случае нужно провести финальную проверку и внести коррективы, чтобы повысить точность прогноза.
В чем сложность сотрудничества бизнеса и подрядчика?
Вот мы и дошли к основным сложностям на этапе первых шагов сотрудничества бизнеса и датасаентиста из агентства.
- Заказчик ставит задачу без конкретных вводных. Например, «внедрить модели аналитики для оптимизации бизнес-процессов». Непонятно, к каким метрикам это относится и что в приоритете.
Такая постановка задач может привести к негативным последствиям. Сценарий №1. Заказчик будет менять таргеты по ходу работы. Но он не осознает, что процессы напрямую связаны со смыслом таргета, поэтому весь процесс и выбор методов оптимизации тоже придется менять. Сценарий №2. Датасаентист самостоятельно выберет метрику из машинного обучения, например auc, и будет ее совершенствовать. Позже окажется, что для бизнеса эта работа была бесполезной.
- Лоскутная организация труда с максимальным разделением обязанностей.
В компании могут быть аналитик для коммуникацией с агентством и технологами, инженер для работы с данными и датасаентист агентства, который делает просто import sklearn и fit/predict. Такое многоуровневое разделение обязанностей отрывает датасаентиста от реального расклада. Повышается риск упустить серьезные аспекты исходной задачи, что негативно отразится на конечном результате.
- Датасаентистам не объясняют, откуда берутся данные.
Data Scientist-ы не обязан по умолчанию понимать, как и откуда вы собираете данные. Компания должна быть заинтересована, чтобы аналитик досконально понимал природу данных, иначе их обработка будет долгой и не приведет к успешному моделированию.
Обязательно познакомьте датасаентиста с источниками данных перед тем, как заключать договор о сотрудничестве.
- Усреднение признаков.
Ваша задача точно не решится быстро, если вы хотите спрогнозировать часовое энергопотребление, но собираете данные потребления только по месяцам. Датасаентист ничего не сможет сделать, пока не накопятся актуальные данные по часовому расходу энергии.
- Датасаентистам не выдают дополнительные данные.
Это нормально, что Data Scientist просит дополнительные данные. Они могут понадобиться, если:
- нужны еще сырые данные;
- датасаентист хочет дополнить Data Set новыми признаками;
- датасаентист хочет увеличить размер Data Set за счет исторических данных.
Data Scientist-ы просят данные, когда понимают, что это повысит качество прогноза.
- Датасаентистов просят использовать модные методы.
Иногда клиенты выдвигают требование — изучить популярные статьи, чтобы для решения задачи использовать модный метод. Поясняю.
Сегодня Data Science — это популярная область и постоянно создается все больше методов обработки данных. Но это не означает, что “раскрученный” метод даст больший профит для решения конкретно вашей задаче. В этом убедить заказчиков не всегда непросто.
Это далеко не полный список проблем, с которыми датасаентист встречается на практике. Перечень постоянно пополняется. Но вы легко можете избежать ошибок при работе с датасаентистом. Просто помните: чтобы работа с данными была полезной, важны компетенции анализа данных, машинного обучения и условия, в которых Data Scientist четко понимает бизнес-задачи. Все это в совокупности даст грандиозный результат. Желаю вам не совершать ошибок, о которых рассказал в статье!
_______________________
Материал подготовлен специально для rusbase.ru