P-значение
P-значение — один из самых неправильно интерпретируемых терминов в статистике. Чтобы пользоваться им осмысленно, важно сразу запомнить, чем оно не является.
Чем p-значение не является
- Не вероятностью того, что нулевая гипотеза верна.
- Не вероятностью того, что ваш альтернативный вывод правильный.
- Не показателем размера эффекта — большой эффект на маленькой выборке может дать большое p, маленький эффект на огромной выборке — крошечное.
Как правильно читать
- p = 0,03 означает: при отсутствии эффекта такие или более экстремальные данные мы бы получили в 3% случаев.
- Это сигнал «вероятно, что-то есть», а не доказательство.
- Решение «значимо или нет» зависит ещё и от заранее выбранного порога, постановки задачи и контекста.
Когда применять и когда нет
Применять
- При интерпретации результатов A/B-тестов
- При сравнении групп пользователей, сегментов, кампаний
- В любых выводах вроде «у этой группы X выше, чем у той»
Не применять
- Когда хочется превратить статистику в индульгенцию: «p = 0,049, значит точно работает». Это не так — это лишь один из аргументов
Примеры применения
В тесте новой стартовой страницы конверсия в первой группе — 4,2%, во второй — 4,8%. Тест на достаточной выборке даёт p = 0,01. Это значит, что при отсутствии реальной разницы такой результат был бы редкостью (1 случай на 100). Команда внедряет новую версию. При этом размер эффекта составляет +0,6 процентных пункта, и команда сразу пересчитывает, во что это превращается в деньгах, прежде чем праздновать.
Часто задаваемые вопросы
Уровень значимости (обычно 5% или 1%) выбирают заранее как порог принятия решения. P-значение считают по итогам эксперимента. Если оно меньше уровня значимости — результат считают статистически значимым. Это две связанные, но разные сущности.
Для бизнес-решений обычно полезнее доверительный интервал: он сразу показывает диапазон возможных значений эффекта, а не только бинарный ответ «значимо или нет». Современные руководства по статистике рекомендуют отчитываться через интервалы, а p-значение оставлять как дополнительный показатель.