Машинное обучение
Машинное обучение — основной рабочий инструмент современного ИИ. Идея простая: вместо «если на картинке круг и красный — это знак стоп» дать модели тысячи картинок знаков с метками и позволить ей самой найти закономерности.
Три больших семейства
- Обучение с учителем (supervised) — модель видит пары «вход → правильный ответ». Так учатся классификаторы и регрессионные модели.
- Обучение без учителя (unsupervised) — модель ищет структуру в данных сама: кластеры, выбросы, скрытые признаки.
- Обучение с подкреплением (reinforcement) — модель действует в среде, получает награду или штраф и постепенно улучшает стратегию.
Что нужно для ML-проекта
- Данные — качество и количество чаще важнее выбора модели.
- Целевая метрика, по которой будет понятно «лучше или хуже».
- Обучающая, валидационная и тестовая выборки, чтобы не переобучиться.
- Способ выкатить модель в эксплуатацию и следить за её качеством во времени (MLOps).
Когда применять и когда нет
Применять
- Есть большой объём данных и задача с понятным ответом
- Правила слишком сложны, чтобы их записать руками
- Можно жить с тем, что ответ будет вероятностный, а не гарантированный
Не применять
- Задача решается простой формулой или таблицей — ML тут только усложнит проект
- Цена ошибки очень высока и нет права на нестабильный ответ (например, банкинг, медицина — нужны дополнительные слои контроля)
- Данных физически мало или они плохого качества
Примеры применения
Антифрод-команда не пишет правила «если перевод больше 50 000 рублей в незнакомую страну — заблокировать». Вместо этого она собирает миллионы транзакций с метками «обычная» и «мошенническая» и обучает модель, которая сама находит подозрительные комбинации признаков. Когда мошенники меняют тактику, модель переобучают на свежих данных.
Часто задаваемые вопросы
В обычном программировании человек пишет правила: «если A — делай B». В машинном обучении человек даёт данные и метрику, а правила находит сам алгоритм во время обучения. Поэтому ML особенно полезен там, где правил слишком много или они меняются со временем.
Зависит от задачи. Для простой классификации хватает сотен примеров на класс, для нейросетей — обычно десятки тысяч, для больших языковых моделей — миллиарды документов. Главный признак нехватки данных — модель плохо работает на новых примерах, хотя на обучающих показывала хорошие цифры.
Это ситуация, когда модель «выучила» обучающую выборку наизусть, но плохо работает на новых данных. Лечится отдельной валидационной выборкой, регуляризацией и упрощением модели. Главный сигнал переобучения — большая разница между качеством на тренировке и на тесте.