Обучение с подкреплением на обратной связи человека (RLHF)

Искусственный интеллект LLM Обучение моделей Безопасность ИИ Обновлено 11 мая 2026

Коротко

RLHF — это способ научить большую языковую модель не просто продолжать тексты, а отвечать так, как ожидают люди. После предобучения модель показывает несколько вариантов ответа на запрос, разметчики выбирают лучший, и на этих оценках тренируется отдельная модель вознаграждения. Затем основная модель обновляется через обучение с подкреплением так, чтобы её ответы получали более высокое вознаграждение. Именно благодаря RLHF современные ассистенты стали внятными и более безопасными.

RLHF в современном виде популяризовали OpenAI и Anthropic. Подход состоит из нескольких шагов.

Шаги RLHF

Предобученная модель учится следовать инструкциям на хорошем размеченном наборе.
Люди сравнивают пары ответов модели на один и тот же запрос и выбирают лучший.
На этих сравнениях обучается модель вознаграждения, которая предсказывает «насколько такой ответ понравится людям».
Основная модель обновляется через обучение с подкреплением, максимизируя предсказанное вознаграждение.

Что даёт RLHF

Лучше следует инструкциям и формату.
Реже выдаёт грубые, опасные или явно бессмысленные ответы.
Учитывает стилистические предпочтения людей: краткость, вежливость, объяснения.

Ограничения

Модель вознаграждения может «переучиться» под предпочтения конкретной группы разметчиков, и это превращается в скрытое смещение.
Модель учится казаться правильной, а не быть таковой: можно получить уверенный, но фактически неверный ответ.

Когда применять и когда нет

Применять

Строите собственного ассистента, в котором важны стиль и безопасность
Готовы выделить ресурсы на разметку и поддерживать её во времени
Промптинг и обычная тонкая настройка уже исчерпали себя

Не применять

Маленький проект на 1–2 человек — это слишком тяжёлая артиллерия
Нет инфраструктуры для разметки и контроля качества разметчиков

Примеры применения

Команда улучшает специализированный медицинский чат-бот. После тонкой настройки на медицинских инструкциях ответы стали точнее, но иногда модель уходит в излишнюю самоуверенность или, наоборот, отказывается отвечать на безобидные вопросы. Разметчики-медики сравнивают пары ответов и отмечают, какой звучит более полезно и безопасно. После раунда RLHF модель чаще задаёт уточняющие вопросы, аккуратнее обращается с фактами и реже навязывает диагноз.

Часто задаваемые вопросы

Чем RLHF отличается от обычной тонкой настройки?

Обычная тонкая настройка показывает модели пары «вход — правильный ответ». RLHF идёт дальше: модель учится по предпочтениям людей, выбирая между несколькими своими же ответами. Это позволяет настраивать более тонкие вещи — стиль, безопасность, вежливость.

Почему модели после RLHF иногда отказываются отвечать на безобидные вопросы?

Это побочный эффект: разметчики и инструкции склоняли модель быть осторожной, и она перестраховывается даже там, где можно было ответить. Лечится более аккуратной инструкцией для разметки и дополнительными примерами «безобидных» запросов с нормальными ответами.

Помог ли вам этот материал?

Обучение с подкреплением на обратной связи человека (RLHF)

Шаги RLHF

Что даёт RLHF

Ограничения

Когда применять и когда нет

✓ Применять

✗ Не применять

Примеры применения

Часто задаваемые вопросы

Связанные термины

Родительские понятия:

Также см.:

Готовы применить теорию на практике?

Применять

Не применять