Трансформер (архитектура нейросети)

Искусственный интеллект Модель Основы ИИ LLM Обновлено 11 мая 2026

До трансформеров главными архитектурами для текста были рекуррентные сети (RNN, LSTM). Они читали текст слово за словом и плохо помнили далёкие связи. Трансформер изменил подход: вся последовательность обрабатывается параллельно, и каждое положение видит все остальные.

Ключевые элементы

Внимание (attention) — механизм, по которому модель решает, на какие части входа смотреть при обработке каждого токена.
Многоголовое внимание — параллельные «головы» внимания, каждая ищет свой тип связей.
Слои нормализации и feed-forward — стандартные строительные блоки, идущие после внимания.

Почему это сработало

Параллельные вычисления — отлично легли на GPU, ускорили обучение в десятки раз.
Хорошая работа с длинными связями в тексте.
Универсальность — оказалось, что та же архитектура работает и на изображениях, и на звуке, и на коде.

Когда применять и когда нет

Применять

Любые задачи понимания и генерации текста
Понимание и генерация кода
Современные задачи компьютерного зрения и обработки звука всё чаще тоже решаются на трансформерах

Не применять

Простые задачи с табличными данными — здесь градиентный бустинг обычно быстрее и точнее
Очень ограниченные ресурсы — большие трансформеры дороги в эксплуатации

Примеры применения

Когда модель отвечает на вопрос по длинному документу, механизм внимания позволяет ей при ответе на конкретный фрагмент текста «подсветить» именно те абзацы, которые касаются вопроса, и игнорировать остальные. Не так давно для этого приходилось писать отдельные алгоритмы поиска и компоновки, теперь это часть стандартной работы трансформера.

Часто задаваемые вопросы

Чем трансформер лучше рекуррентных сетей?

Главное — параллельные вычисления и лучшая работа с длинными связями. RNN читает текст слово за словом и теряет информацию на длинных текстах. Трансформер видит всю последовательность сразу и через внимание ловит даже очень далёкие связи.

Все ли LLM построены на трансформерах?

Подавляющее большинство — да. Существуют и альтернативные архитектуры (Mamba, RWKV и другие), но пока они в массовом продакшне встречаются редко. На горизонте ближайших лет трансформер остаётся основной архитектурой современных LLM.

Помог ли вам этот материал?

Трансформер (архитектура нейросети)

Ключевые элементы

Почему это сработало

Когда применять и когда нет

✓ Применять

✗ Не применять

Примеры применения

Часто задаваемые вопросы

Связанные термины

Родительские понятия:

Также см.:

Готовы применить теорию на практике?

Применять

Не применять