Статистическая значимость
Статистическая значимость — главная защита от того, чтобы принять случайный всплеск за реальное улучшение. Без неё A/B-тесты быстро превращаются в гадание.
Что важно
- Порог 5% — соглашение, а не закон. В медицине и регуляторике берут 1% или 0,1%, в маркетинге часто 10%.
- Значимый результат не равен «большому». Малый, но устойчивый эффект может быть значим, а большой случайный — нет.
- Чем больше выборка, тем легче поймать значимость даже у незначительных эффектов.
Типичные ошибки
- Подглядывание в тест до его завершения и остановка, как только цифры понравились.
- Многократные сравнения без поправок — чем больше метрик проверяете, тем выше шанс случайной «победы».
- Игнорирование размера эффекта: значимый, но микроскопический результат может не стоить внедрения.
Когда применять и когда нет
Применять
- Любые A/B-тесты и сравнения вариантов
- Любые выводы вида «у группы X результат выше, чем у Y»
- Перед принятием решений на основе данных небольшого объёма
Не применять
- Когда речь о бизнес-решении, где значимость — лишь часть картины. Иногда стоит внедрить и без полной значимости, иногда — отказаться даже при значимом эффекте, потому что он слишком мал
Примеры применения
Маркетинг тестирует два варианта писем. Через сутки в первом конверсия 3,1%, во втором — 3,4%. Кажется, что лучше второй. Расчёт значимости показывает: при таком объёме данных вероятность увидеть такую разницу случайно — около 30%. Через неделю и большую выборку разница исчезает: оба варианта дают около 3,2%. Без расчёта значимости команда отправила бы менее качественный шаблон в массовую рассылку.
Часто задаваемые вопросы
Нет. Это означает только, что вероятность случайно увидеть такие данные при отсутствии эффекта мала. Остаётся 5% (или другой выбранный порог) случаев, когда мы ошибочно поверим в эффект, которого нет. Значимость снижает риск, но не отменяет его.
В классических A/B-тестах — нет. Подглядывание ломает статистику: чем чаще вы смотрите, тем выше шанс случайно «увидеть» значимость, которой на самом деле нет. Есть отдельные методы с честной остановкой (sequential testing, байесовские подходы), но их применяют сознательно, а не «когда захотелось».