MLOps
До появления MLOps типовая судьба ML-проекта выглядела так: команда обучила хорошую модель, показала впечатляющую метрику и потеряла половину качества при выкатке в продакшн. MLOps пытается сделать этот переход управляемым и повторяемым.
Что обычно входит
- Версионирование данных и моделей — чтобы можно было повторить эксперимент и откатить плохую версию.
- Автоматические пайплайны обучения и валидации.
- Тесты качества модели и устойчивости к выбросам.
- CI/CD-процессы для выкатки моделей в продакшн.
- Мониторинг: качество предсказаний, дрейф данных, стоимость и задержка ответа.
- Регулярное переобучение по расписанию или по сигналам деградации.
LLMOps
С приходом больших языковых моделей появилась отдельная подобласть — LLMOps. Помимо обычных задач MLOps, она занимается версионированием промптов, оценкой ответов, контролем стоимости токенов и работой с провайдерами моделей.
Когда применять и когда нет
Применять
- В компании больше одной ML- или ИИ-модели в продакшне
- Стоимость и качество моделей становятся заметными для бизнеса
- Появляются регуляторные требования по аудиту и воспроизводимости
Не применять
- Одна модель в одной задаче, без планов расширяться
- Маленький стартап, где ещё нет даже выкатки в продакшн
Примеры применения
В одной из команд после внедрения MLOps выкатка новой версии модели прогноза спроса стала занимать день вместо двух недель. Каждый раз автоматически прогоняется набор регрессионных метрик, сравнение с предыдущей версией и тесты по сегментам. Если новая модель хуже на каком-то ключевом сегменте, выкатка автоматически останавливается, и команда видит, в чём именно проблема.
Часто задаваемые вопросы
В обычном DevOps в продакшн выкатывают код. В MLOps — код, данные и модели одновременно, причём качество модели зависит от меняющихся данных. Поэтому добавляются специальные шаги: мониторинг дрейфа данных, переобучение, оценка качества на новых сегментах. Без них «обычный» CI/CD быстро ломается на ML-проектах.
LLMOps — это MLOps в применении к большим языковым моделям. Часть инструментов общая, часть — специальная: версионирование промптов, оценка качества ответов, контроль стоимости токенов, мониторинг галлюцинаций. Отдельный термин нужен в основном для того, чтобы не путать классические ML-пайплайны и работу с LLM, у которых другие риски и метрики.