Токен
Токенизация — это процесс разбиения текста на токены перед подачей в модель. Каждой возможной комбинации символов соответствует свой числовой идентификатор, и именно эти числа подаются в нейросеть.
Что важно знать про токены
- В английском один токен примерно соответствует 0,75 слова. В русском обычно 1 слово — 2–3 токена, потому что русский морфологически сложнее.
- Длинные имена, URL, эмодзи и редкие термины могут разбиваться на много токенов.
- Контекстное окно модели измеряется именно в токенах, а не в словах.
- Стоимость работы с моделью считается за тысячу или миллион токенов отдельно на вход и на выход.
Когда применять и когда нет
Применять
- Когда оцениваете стоимость работы с LLM
- Когда упираетесь в контекстное окно — длинный документ может не влезть
- Когда замеряете производительность: скорость измеряется в токенах в секунду
Не применять
- В коммуникации с не-техническим заказчиком: вместо «20 тысяч токенов» проще сказать «примерно 30 страниц текста»
Примеры применения
Для сравнения стоимости: запрос «привет, как дела?» по-русски в популярных моделях занимает 5–8 токенов на вход. Длинная инструкция с 5 страницами правил поддержки клиентов — примерно 3000–5000 токенов. Это значит, что при бесконечной переписке такого бота вы будете каждый раз платить за все эти токены инструкции, если её не оптимизировать.
Часто задаваемые вопросы
В среднем 2–3 токена, но цифра зависит от модели и от самого слова. Простые частотные слова вроде «и», «в», «не» — обычно 1 токен. Длинные специальные термины, имена собственные, формулы могут разбиваться на 4–6 токенов и больше.
Стоимость работы LLM в первую очередь определяется числом обработанных токенов: чем длиннее вход и выход, тем больше вычислений. Цена за запрос была бы несправедливой — короткий вопрос и большой документ стоят провайдеру очень по-разному.