Обучение с подкреплением

Искусственный интеллект Основы ИИ Обучение моделей Обновлено 11 мая 2026

В обучении с подкреплением есть три ключевых сущности: агент, среда и сигнал награды. Агент действует, среда меняется и возвращает новое состояние и награду, цикл повторяется.

Ключевые элементы

Политика — правило, по которому агент выбирает действие в каждом состоянии.
Функция награды — то, что агент пытается максимизировать. Самый сложный и хрупкий элемент: плохо составленная награда быстро ломает поведение агента.
Исследование и эксплуатация — баланс между «попробовать новое» и «использовать уже найденное хорошее».

Где применяется

Игры — го, шахматы, StarCraft, Dota — где RL обыгрывает чемпионов мира.
Робототехника, автопилоты, динамическое ценообразование.
Тонкая настройка больших языковых моделей через обратную связь людей (RLHF).

Когда применять и когда нет

Применять

Задача — последовательность решений, а не одно предсказание
Можно сформулировать измеримый сигнал «хорошо/плохо»
Есть симулятор или дешёвая среда, в которой можно много экспериментировать

Не применять

Задача решается одной классификацией или регрессией — RL тут только усложнит проект
Каждое действие в реальном мире стоит дорого (например, медицина), и нет хорошего симулятора
Сигнал награды плохо формализуется или легко «взламывается» агентом

Примеры применения

Модель, играющая в шахматы, начинает с почти случайных ходов. После миллионов партий против самой себя она запоминает, какие позиции чаще ведут к победе, и постепенно перестраивает политику. Через какое-то время она начинает играть на уровне сильного гроссмейстера, а потом и сильнее любого человека — при этом её никто не учил конкретным дебютам, она нашла их сама.

Часто задаваемые вопросы

Чем RL отличается от обучения с учителем?

В обучении с учителем модель видит готовые пары «вход — правильный ответ». В обучении с подкреплением правильный ответ заранее неизвестен, есть только сигнал награды за результат. RL особенно подходит для задач, где важна последовательность действий, а не одиночное предсказание.

Что такое RLHF?

RLHF (Reinforcement Learning from Human Feedback) — это вариант обучения с подкреплением, в котором источник награды — оценки людей. На нём учатся современные большие языковые модели: люди сравнивают разные ответы модели и помогают ей подстраиваться под человеческие предпочтения.

Помог ли вам этот материал?

Обучение с подкреплением

Ключевые элементы

Где применяется

Когда применять и когда нет

✓ Применять

✗ Не применять

Примеры применения

Часто задаваемые вопросы

Связанные термины

Родительские понятия:

Частные случаи:

Готовы применить теорию на практике?

Применять

Не применять