Попробовать бесплатно

Токен

Токенизация — это процесс разбиения текста на токены перед подачей в модель. Каждой возможной комбинации символов соответствует свой числовой идентификатор, и именно эти числа подаются в нейросеть.

Что важно знать про токены

  • В английском один токен примерно соответствует 0,75 слова. В русском обычно 1 слово — 2–3 токена, потому что русский морфологически сложнее.
  • Длинные имена, URL, эмодзи и редкие термины могут разбиваться на много токенов.
  • Контекстное окно модели измеряется именно в токенах, а не в словах.
  • Стоимость работы с моделью считается за тысячу или миллион токенов отдельно на вход и на выход.

Когда применять и когда нет

Применять

  • Когда оцениваете стоимость работы с LLM
  • Когда упираетесь в контекстное окно — длинный документ может не влезть
  • Когда замеряете производительность: скорость измеряется в токенах в секунду

Не применять

  • В коммуникации с не-техническим заказчиком: вместо «20 тысяч токенов» проще сказать «примерно 30 страниц текста»

Примеры применения

Для сравнения стоимости: запрос «привет, как дела?» по-русски в популярных моделях занимает 5–8 токенов на вход. Длинная инструкция с 5 страницами правил поддержки клиентов — примерно 3000–5000 токенов. Это значит, что при бесконечной переписке такого бота вы будете каждый раз платить за все эти токены инструкции, если её не оптимизировать.

Часто задаваемые вопросы

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.