Обучение с подкреплением
В обучении с подкреплением есть три ключевых сущности: агент, среда и сигнал награды. Агент действует, среда меняется и возвращает новое состояние и награду, цикл повторяется.
Ключевые элементы
- Политика — правило, по которому агент выбирает действие в каждом состоянии.
- Функция награды — то, что агент пытается максимизировать. Самый сложный и хрупкий элемент: плохо составленная награда быстро ломает поведение агента.
- Исследование и эксплуатация — баланс между «попробовать новое» и «использовать уже найденное хорошее».
Где применяется
- Игры — го, шахматы, StarCraft, Dota — где RL обыгрывает чемпионов мира.
- Робототехника, автопилоты, динамическое ценообразование.
- Тонкая настройка больших языковых моделей через обратную связь людей (RLHF).
Когда применять и когда нет
Применять
- Задача — последовательность решений, а не одно предсказание
- Можно сформулировать измеримый сигнал «хорошо/плохо»
- Есть симулятор или дешёвая среда, в которой можно много экспериментировать
Не применять
- Задача решается одной классификацией или регрессией — RL тут только усложнит проект
- Каждое действие в реальном мире стоит дорого (например, медицина), и нет хорошего симулятора
- Сигнал награды плохо формализуется или легко «взламывается» агентом
Примеры применения
Модель, играющая в шахматы, начинает с почти случайных ходов. После миллионов партий против самой себя она запоминает, какие позиции чаще ведут к победе, и постепенно перестраивает политику. Через какое-то время она начинает играть на уровне сильного гроссмейстера, а потом и сильнее любого человека — при этом её никто не учил конкретным дебютам, она нашла их сама.
Часто задаваемые вопросы
В обучении с учителем модель видит готовые пары «вход — правильный ответ». В обучении с подкреплением правильный ответ заранее неизвестен, есть только сигнал награды за результат. RL особенно подходит для задач, где важна последовательность действий, а не одиночное предсказание.
RLHF (Reinforcement Learning from Human Feedback) — это вариант обучения с подкреплением, в котором источник награды — оценки людей. На нём учатся современные большие языковые модели: люди сравнивают разные ответы модели и помогают ей подстраиваться под человеческие предпочтения.