Дистилляция модели

Искусственный интеллект LLM Обучение моделей Обновлено 11 мая 2026

Идея дистилляции — переложить знания и навыки из дорогой модели в более компактную. Это особенно важно для продакшна, где важна скорость, стоимость и иногда работа без интернета.

Как работает

Берётся большая обученная модель-учитель.
Готовится набор запросов, желательно близких к реальной задаче.
Учитель отвечает на каждый запрос, иногда несколькими вариантами.
Маленькая модель-ученик обучается воспроизводить ответы и распределения вероятностей учителя.

Что получается

Модель в 5–50 раз меньше по числу параметров.
Заметно дешевле и быстрее в эксплуатации.
На целевых задачах качество близкое к учителю; на задачах за пределами обучающего набора часто заметно хуже.

Когда применять и когда нет

Применять

Нужна модель для массового продакшна с низкой стоимостью запроса
Хотите запускать модель на собственной инфраструктуре или на устройстве клиента
Задача узкая и хорошо описывается набором запросов

Не применять

Требуется универсальный ассистент по любым темам — дистиллированная модель обычно проигрывает учителю на широком наборе задач
Учитель и ученик принадлежат разным провайдерам и лицензии не позволяют такой переноса

Примеры применения

Команда поддержки запускает чат-бот, который обрабатывает тысячи запросов в день. Использовать топовую модель напрямую слишком дорого. Они собирают набор реальных вопросов клиентов, прогоняют их через большую модель и затем обучают маленькую модель повторять её ответы. На конкретной задаче поддержки качество получается почти такое же, а стоимость одного диалога падает в десять раз.

Часто задаваемые вопросы

Чем дистилляция отличается от тонкой настройки?

Тонкая настройка адаптирует одну и ту же модель под задачу. Дистилляция — это перенос знаний из большой модели в маленькую, как правило другую по архитектуре. Обычно эти подходы комбинируют: сначала дистиллируют, потом тонко настраивают на узкой задаче.

Дистиллированная модель работает так же хорошо, как учитель?

На задачах, близких к её обучающему набору, — обычно да или почти. На задачах за его пределами она часто проигрывает учителю, потому что выучила не всё «знание», а лишь поведение в виденных сценариях.

Помог ли вам этот материал?

Дистилляция модели

Как работает

Что получается

Когда применять и когда нет

✓ Применять

✗ Не применять

Примеры применения

Часто задаваемые вопросы

Связанные термины

Родительские понятия:

Также см.:

Готовы применить теорию на практике?

Применять

Не применять