<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

P-значение

P-значение — один из самых неправильно интерпретируемых терминов в статистике. Чтобы пользоваться им осмысленно, важно сразу запомнить, чем оно не является.

Чем p-значение не является

  • Не вероятностью того, что нулевая гипотеза верна.
  • Не вероятностью того, что ваш альтернативный вывод правильный.
  • Не показателем размера эффекта — большой эффект на маленькой выборке может дать большое p, маленький эффект на огромной выборке — крошечное.

Как правильно читать

  • p = 0,03 означает: при отсутствии эффекта такие или более экстремальные данные мы бы получили в 3% случаев.
  • Это сигнал «вероятно, что-то есть», а не доказательство.
  • Решение «значимо или нет» зависит ещё и от заранее выбранного порога, постановки задачи и контекста.

Когда применять и когда нет

Применять

  • При интерпретации результатов A/B-тестов
  • При сравнении групп пользователей, сегментов, кампаний
  • В любых выводах вроде «у этой группы X выше, чем у той»

Не применять

  • Когда хочется превратить статистику в индульгенцию: «p = 0,049, значит точно работает». Это не так — это лишь один из аргументов

Примеры применения

В тесте новой стартовой страницы конверсия в первой группе — 4,2%, во второй — 4,8%. Тест на достаточной выборке даёт p = 0,01. Это значит, что при отсутствии реальной разницы такой результат был бы редкостью (1 случай на 100). Команда внедряет новую версию. При этом размер эффекта составляет +0,6 процентных пункта, и команда сразу пересчитывает, во что это превращается в деньгах, прежде чем праздновать.

Часто задаваемые вопросы

Уровень значимости (обычно 5% или 1%) выбирают заранее как порог принятия решения. P-значение считают по итогам эксперимента. Если оно меньше уровня значимости — результат считают статистически значимым. Это две связанные, но разные сущности.

Для бизнес-решений обычно полезнее доверительный интервал: он сразу показывает диапазон возможных значений эффекта, а не только бинарный ответ «значимо или нет». Современные руководства по статистике рекомендуют отчитываться через интервалы, а p-значение оставлять как дополнительный показатель.

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.