В современном ретейле точность прогноза спроса напрямую конвертируется в финансовый результат. Ошибка в оценке будущих продаж приводит либо к пустым полкам и упущенной выручке, либо к переизбытку товара и списаниям. Например, недооценка роста спроса на горошек в новогодний период может стать причиной не только значительной потери потенциальной прибыли, но и снижения лояльности клиентов. Мы в Lenta tech построили систему прогнозирования, которая ежедневно пересчитывает около 15 млн временных рядов для 2500 магазинов и 50 товарных групп. В основе предлагаемого подхода лежат современные методы машинного обучения (Machine Learning, ML) — ансамбли градиентного бустинга с продвинутым feature-engineering (создание признаков модели) и их авторегрессионное применение, — а не традиционные статистические методы.
Прогнозирование спроса в «Группе Лента» (как и в любом ретейлере) — критически важная задача. Именно на основе этих прогнозов формируются рекомендации по заказам у поставщиков в масштабах всей компании. Речь идет о балансе между доступностью товара на полке и минимизацией списаний. Наша система охватывает примерно:
В основе системы лежат модели градиентного бустинга над деревьями решений из популярных библиотек LightGBM и XGBoost, а также регрессионные и авторегрессионные модели, дополненные быстродействующими линейными алгоритмами. Такой выбор обусловлен относительной простотой настройки, устойчивостью и стабильностью результата. Градиентный бустинг занял промежуточное положение между классическими методами и нейросетевыми решениями: на момент создания системы нейросети могли обеспечить более высокую точность только ценой чрезвычайно долгой и тонкой настройки.
Модели сегментированы по направлениям, формату магазина и товарной категории. Для каждого сегмента реализован собственный набор признаков (независимых переменных), правил формирования обучающих выборок и гиперпараметров с автооптимизацией по расписанию. Такая сегментация позволяет устранить лишний «шум» и обеспечить качественное обучение: большинство факторов спроса в сегменте подчиняется практически единой логике, что дает модели возможность острее реагировать на тонкие изменения. При этом необходимо избегать чрезмерного дробления данных, поскольку оно может привести к дефициту информации, необходимой для формирования правил генерализации.
В качестве признаков модели используют как очевидные факторы (цены, праздники, промоакции), так и более сложные производные. Один из наиболее интересных кейсов, давший ощутимый прирост точности, — явное задание продаж прошлых периодов по различным типам акций и праздникам, в дополнение к стандартным скользящим окнам по продажам. Например, как продавался и продавался ли товар в конкретные промо или праздники, что подчеркивает разность механик промоакций, а также обеспечивает дополнительную стабильность при оценке скидки в будущем периоде.
Для предсказания взрывного роста продаж существуют отдельные вероятностные модели, обученные именно на аномальных всплесках спроса. На финальном этапе прогноз уточняется дополнительными быстродействующими линейными моделями, которые обеспечивают оперативную реакцию на изменение тренда.
Категория СОФ (свежие овощи и фрукты) требует отдельного подхода. Ее ключевые особенности — стабильный ровный спрос, который резко сменяется быстрым изменением тренда, ярко выраженная внутригодовая сезонность, а также зависимость от малейших отличий во вкусовых и визуальных характеристиках товара. Для этого направления используется авторегрессия в XGBoost. Такой подход обеспечивает лучшую производительность при малом количестве данных, что критически важно при детальной сегментации на уровне «категория — магазин».
Основные сложности, с которыми столкнулась команда, — сезонность, короткий срок хранения и колебания цен. Например, их удалось преодолеть с помощью учета большего количества разнообразных признаков расположения дня и недели в году, а также ценовых признаков (как абсолютных, так и относительных) в совокупности с тонкой настройкой гиперпараметров модели.
Главная задача, которую решал этот кейс, — существенно повысить подневную точность прогнозов по WAPE и обеспечить максимально быструю реакцию на изменяющийся тренд, чтобы «ловить» ранние и поздние входы и выходы из сезона.
Система прогнозирования спроса в «Группе Лента» — пример того, как машинное обучение решает прикладную бизнес-задачу с огромным масштабом данных. Ансамбли градиентного бустинга, сегментация моделей, авторегрессионные подходы для свежей продукции и постоянная автооптимизация позволяют компании удерживать баланс между наличием товара на полке и уровнем списаний. А команда Lenta tech продолжает развивать платформу, и впереди новые архитектурные и алгоритмические улучшения, например, построение специализированных моделей под различные категории и периоды.
Материал подготовлен для издания IT-World, ссылка: Как машинное обучение помогает «Группе Лента» прогнозировать спрос | IT-World