<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Обучение с подкреплением на обратной связи человека (RLHF)

RLHF в современном виде популяризовали OpenAI и Anthropic. Подход состоит из нескольких шагов.

Шаги RLHF

  1. Предобученная модель учится следовать инструкциям на хорошем размеченном наборе.
  2. Люди сравнивают пары ответов модели на один и тот же запрос и выбирают лучший.
  3. На этих сравнениях обучается модель вознаграждения, которая предсказывает «насколько такой ответ понравится людям».
  4. Основная модель обновляется через обучение с подкреплением, максимизируя предсказанное вознаграждение.

Что даёт RLHF

  • Лучше следует инструкциям и формату.
  • Реже выдаёт грубые, опасные или явно бессмысленные ответы.
  • Учитывает стилистические предпочтения людей: краткость, вежливость, объяснения.

Ограничения

  • Модель вознаграждения может «переучиться» под предпочтения конкретной группы разметчиков, и это превращается в скрытое смещение.
  • Модель учится казаться правильной, а не быть таковой: можно получить уверенный, но фактически неверный ответ.

Когда применять и когда нет

Применять

  • Строите собственного ассистента, в котором важны стиль и безопасность
  • Готовы выделить ресурсы на разметку и поддерживать её во времени
  • Промптинг и обычная тонкая настройка уже исчерпали себя

Не применять

  • Маленький проект на 1–2 человек — это слишком тяжёлая артиллерия
  • Нет инфраструктуры для разметки и контроля качества разметчиков

Примеры применения

Команда улучшает специализированный медицинский чат-бот. После тонкой настройки на медицинских инструкциях ответы стали точнее, но иногда модель уходит в излишнюю самоуверенность или, наоборот, отказывается отвечать на безобидные вопросы. Разметчики-медики сравнивают пары ответов и отмечают, какой звучит более полезно и безопасно. После раунда RLHF модель чаще задаёт уточняющие вопросы, аккуратнее обращается с фактами и реже навязывает диагноз.

Часто задаваемые вопросы

Обычная тонкая настройка показывает модели пары «вход — правильный ответ». RLHF идёт дальше: модель учится по предпочтениям людей, выбирая между несколькими своими же ответами. Это позволяет настраивать более тонкие вещи — стиль, безопасность, вежливость.

Это побочный эффект: разметчики и инструкции склоняли модель быть осторожной, и она перестраховывается даже там, где можно было ответить. Лечится более аккуратной инструкцией для разметки и дополнительными примерами «безобидных» запросов с нормальными ответами.

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.