Трансформер (архитектура нейросети)
До трансформеров главными архитектурами для текста были рекуррентные сети (RNN, LSTM). Они читали текст слово за словом и плохо помнили далёкие связи. Трансформер изменил подход: вся последовательность обрабатывается параллельно, и каждое положение видит все остальные.
Ключевые элементы
- Внимание (attention) — механизм, по которому модель решает, на какие части входа смотреть при обработке каждого токена.
- Многоголовое внимание — параллельные «головы» внимания, каждая ищет свой тип связей.
- Слои нормализации и feed-forward — стандартные строительные блоки, идущие после внимания.
Почему это сработало
- Параллельные вычисления — отлично легли на GPU, ускорили обучение в десятки раз.
- Хорошая работа с длинными связями в тексте.
- Универсальность — оказалось, что та же архитектура работает и на изображениях, и на звуке, и на коде.
Когда применять и когда нет
Применять
- Любые задачи понимания и генерации текста
- Понимание и генерация кода
- Современные задачи компьютерного зрения и обработки звука всё чаще тоже решаются на трансформерах
Не применять
- Простые задачи с табличными данными — здесь градиентный бустинг обычно быстрее и точнее
- Очень ограниченные ресурсы — большие трансформеры дороги в эксплуатации
Примеры применения
Когда модель отвечает на вопрос по длинному документу, механизм внимания позволяет ей при ответе на конкретный фрагмент текста «подсветить» именно те абзацы, которые касаются вопроса, и игнорировать остальные. Не так давно для этого приходилось писать отдельные алгоритмы поиска и компоновки, теперь это часть стандартной работы трансформера.
Часто задаваемые вопросы
Главное — параллельные вычисления и лучшая работа с длинными связями. RNN читает текст слово за словом и теряет информацию на длинных текстах. Трансформер видит всю последовательность сразу и через внимание ловит даже очень далёкие связи.
Подавляющее большинство — да. Существуют и альтернативные архитектуры (Mamba, RWKV и другие), но пока они в массовом продакшне встречаются редко. На горизонте ближайших лет трансформер остаётся основной архитектурой современных LLM.