Предобучение модели
Предобучение современной большой языковой модели — это месяцы работы тысяч видеокарт и десятки миллионов долларов вычислений. Поэтому позволить себе тренировать собственную большую модель с нуля могут только крупные лаборатории и компании.
Что происходит на этом этапе
- Собирается огромный корпус данных — интернет, книги, код, научные статьи.
- Данные чистятся и дедуплицируются.
- Модель учится предсказывать следующий токен на этом корпусе с помощью обратного распространения ошибки.
- Это повторяется триллионы раз, пока модель не выучит широкие закономерности языка и мира.
Чего предобучение не даёт
- Готового полезного ассистента — после предобучения модель только умеет продолжать тексты, но не следовать инструкциям.
- Безопасного поведения — для этого нужны отдельные этапы тонкой настройки и обучения с подкреплением на обратной связи.
- Знаний после даты остановки обучения — модель не знает событий, произошедших позже.
Когда применять и когда нет
Применять
- Когда строите собственную фундаментальную модель — но это удел крупных лабораторий
- Когда хотите специализированную модель на закрытом домене (например, биомедицина) и есть огромные объёмы текстов и ресурсы
Не применять
- Для продуктовых задач почти всегда — гораздо разумнее брать готовую предобученную модель и настраивать её под себя
- Когда нет миллионов долларов на вычисления и команды исследователей
Примеры применения
Когда говорят, что модель «знает русский, английский, китайский и сорок других языков», это означает, что в её корпусе предобучения были тексты на этих языках. Если же модель не видела на этом этапе, например, армянский — она будет работать с ним заметно хуже, и никакая короткая тонкая настройка этот пробел полностью не закроет.
Часто задаваемые вопросы
Предобучение даёт модели общее «понимание» языка и мира на огромных корпусах. Тонкая настройка делает её полезной для конкретной задачи или стиля. Предобучение длится месяцы и стоит миллионы, тонкая настройка обычно — часы или дни и сотни-тысячи долларов.
Сама по себе — нет. Все знания «зашиты» в её веса на момент обучения. Чтобы модель умела работать со свежей информацией, нужно либо подключать поиск (RAG), либо вызывать внешние инструменты вроде веб-поиска.