<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Обучение с подкреплением

В обучении с подкреплением есть три ключевых сущности: агент, среда и сигнал награды. Агент действует, среда меняется и возвращает новое состояние и награду, цикл повторяется.

Ключевые элементы

  • Политика — правило, по которому агент выбирает действие в каждом состоянии.
  • Функция награды — то, что агент пытается максимизировать. Самый сложный и хрупкий элемент: плохо составленная награда быстро ломает поведение агента.
  • Исследование и эксплуатация — баланс между «попробовать новое» и «использовать уже найденное хорошее».

Где применяется

  • Игры — го, шахматы, StarCraft, Dota — где RL обыгрывает чемпионов мира.
  • Робототехника, автопилоты, динамическое ценообразование.
  • Тонкая настройка больших языковых моделей через обратную связь людей (RLHF).

Когда применять и когда нет

Применять

  • Задача — последовательность решений, а не одно предсказание
  • Можно сформулировать измеримый сигнал «хорошо/плохо»
  • Есть симулятор или дешёвая среда, в которой можно много экспериментировать

Не применять

  • Задача решается одной классификацией или регрессией — RL тут только усложнит проект
  • Каждое действие в реальном мире стоит дорого (например, медицина), и нет хорошего симулятора
  • Сигнал награды плохо формализуется или легко «взламывается» агентом

Примеры применения

Модель, играющая в шахматы, начинает с почти случайных ходов. После миллионов партий против самой себя она запоминает, какие позиции чаще ведут к победе, и постепенно перестраивает политику. Через какое-то время она начинает играть на уровне сильного гроссмейстера, а потом и сильнее любого человека — при этом её никто не учил конкретным дебютам, она нашла их сама.

Часто задаваемые вопросы

В обучении с учителем модель видит готовые пары «вход — правильный ответ». В обучении с подкреплением правильный ответ заранее неизвестен, есть только сигнал награды за результат. RL особенно подходит для задач, где важна последовательность действий, а не одиночное предсказание.

RLHF (Reinforcement Learning from Human Feedback) — это вариант обучения с подкреплением, в котором источник награды — оценки людей. На нём учатся современные большие языковые модели: люди сравнивают разные ответы модели и помогают ей подстраиваться под человеческие предпочтения.

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.