<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Статистическая значимость

Статистическая значимость — главная защита от того, чтобы принять случайный всплеск за реальное улучшение. Без неё A/B-тесты быстро превращаются в гадание.

Что важно

  • Порог 5% — соглашение, а не закон. В медицине и регуляторике берут 1% или 0,1%, в маркетинге часто 10%.
  • Значимый результат не равен «большому». Малый, но устойчивый эффект может быть значим, а большой случайный — нет.
  • Чем больше выборка, тем легче поймать значимость даже у незначительных эффектов.

Типичные ошибки

  • Подглядывание в тест до его завершения и остановка, как только цифры понравились.
  • Многократные сравнения без поправок — чем больше метрик проверяете, тем выше шанс случайной «победы».
  • Игнорирование размера эффекта: значимый, но микроскопический результат может не стоить внедрения.

Когда применять и когда нет

Применять

  • Любые A/B-тесты и сравнения вариантов
  • Любые выводы вида «у группы X результат выше, чем у Y»
  • Перед принятием решений на основе данных небольшого объёма

Не применять

  • Когда речь о бизнес-решении, где значимость — лишь часть картины. Иногда стоит внедрить и без полной значимости, иногда — отказаться даже при значимом эффекте, потому что он слишком мал

Примеры применения

Маркетинг тестирует два варианта писем. Через сутки в первом конверсия 3,1%, во втором — 3,4%. Кажется, что лучше второй. Расчёт значимости показывает: при таком объёме данных вероятность увидеть такую разницу случайно — около 30%. Через неделю и большую выборку разница исчезает: оба варианта дают около 3,2%. Без расчёта значимости команда отправила бы менее качественный шаблон в массовую рассылку.

Часто задаваемые вопросы

Нет. Это означает только, что вероятность случайно увидеть такие данные при отсутствии эффекта мала. Остаётся 5% (или другой выбранный порог) случаев, когда мы ошибочно поверим в эффект, которого нет. Значимость снижает риск, но не отменяет его.

В классических A/B-тестах — нет. Подглядывание ломает статистику: чем чаще вы смотрите, тем выше шанс случайно «увидеть» значимость, которой на самом деле нет. Есть отдельные методы с честной остановкой (sequential testing, байесовские подходы), но их применяют сознательно, а не «когда захотелось».

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.