Обучение с подкреплением на обратной связи человека (RLHF)
RLHF в современном виде популяризовали OpenAI и Anthropic. Подход состоит из нескольких шагов.
Шаги RLHF
- Предобученная модель учится следовать инструкциям на хорошем размеченном наборе.
- Люди сравнивают пары ответов модели на один и тот же запрос и выбирают лучший.
- На этих сравнениях обучается модель вознаграждения, которая предсказывает «насколько такой ответ понравится людям».
- Основная модель обновляется через обучение с подкреплением, максимизируя предсказанное вознаграждение.
Что даёт RLHF
- Лучше следует инструкциям и формату.
- Реже выдаёт грубые, опасные или явно бессмысленные ответы.
- Учитывает стилистические предпочтения людей: краткость, вежливость, объяснения.
Ограничения
- Модель вознаграждения может «переучиться» под предпочтения конкретной группы разметчиков, и это превращается в скрытое смещение.
- Модель учится казаться правильной, а не быть таковой: можно получить уверенный, но фактически неверный ответ.
Когда применять и когда нет
Применять
- Строите собственного ассистента, в котором важны стиль и безопасность
- Готовы выделить ресурсы на разметку и поддерживать её во времени
- Промптинг и обычная тонкая настройка уже исчерпали себя
Не применять
- Маленький проект на 1–2 человек — это слишком тяжёлая артиллерия
- Нет инфраструктуры для разметки и контроля качества разметчиков
Примеры применения
Команда улучшает специализированный медицинский чат-бот. После тонкой настройки на медицинских инструкциях ответы стали точнее, но иногда модель уходит в излишнюю самоуверенность или, наоборот, отказывается отвечать на безобидные вопросы. Разметчики-медики сравнивают пары ответов и отмечают, какой звучит более полезно и безопасно. После раунда RLHF модель чаще задаёт уточняющие вопросы, аккуратнее обращается с фактами и реже навязывает диагноз.
Часто задаваемые вопросы
Обычная тонкая настройка показывает модели пары «вход — правильный ответ». RLHF идёт дальше: модель учится по предпочтениям людей, выбирая между несколькими своими же ответами. Это позволяет настраивать более тонкие вещи — стиль, безопасность, вежливость.
Это побочный эффект: разметчики и инструкции склоняли модель быть осторожной, и она перестраховывается даже там, где можно было ответить. Лечится более аккуратной инструкцией для разметки и дополнительными примерами «безобидных» запросов с нормальными ответами.