<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Токен

Токенизация — это процесс разбиения текста на токены перед подачей в модель. Каждой возможной комбинации символов соответствует свой числовой идентификатор, и именно эти числа подаются в нейросеть.

Что важно знать про токены

  • В английском один токен примерно соответствует 0,75 слова. В русском обычно 1 слово — 2–3 токена, потому что русский морфологически сложнее.
  • Длинные имена, URL, эмодзи и редкие термины могут разбиваться на много токенов.
  • Контекстное окно модели измеряется именно в токенах, а не в словах.
  • Стоимость работы с моделью считается за тысячу или миллион токенов отдельно на вход и на выход.

Когда применять и когда нет

Применять

  • Когда оцениваете стоимость работы с LLM
  • Когда упираетесь в контекстное окно — длинный документ может не влезть
  • Когда замеряете производительность: скорость измеряется в токенах в секунду

Не применять

  • В коммуникации с не-техническим заказчиком: вместо «20 тысяч токенов» проще сказать «примерно 30 страниц текста»

Примеры применения

Для сравнения стоимости: запрос «привет, как дела?» по-русски в популярных моделях занимает 5–8 токенов на вход. Длинная инструкция с 5 страницами правил поддержки клиентов — примерно 3000–5000 токенов. Это значит, что при бесконечной переписке такого бота вы будете каждый раз платить за все эти токены инструкции, если её не оптимизировать.

Часто задаваемые вопросы

В среднем 2–3 токена, но цифра зависит от модели и от самого слова. Простые частотные слова вроде «и», «в», «не» — обычно 1 токен. Длинные специальные термины, имена собственные, формулы могут разбиваться на 4–6 токенов и больше.

Стоимость работы LLM в первую очередь определяется числом обработанных токенов: чем длиннее вход и выход, тем больше вычислений. Цена за запрос была бы несправедливой — короткий вопрос и большой документ стоят провайдеру очень по-разному.

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.