<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Ошибки первого и второго рода

Любой статистический вывод — это компромисс между двумя ошибками. Уменьшая одну, обычно увеличиваешь другую.

Как это связано с порогами

  • Уровень значимости (обычно 5%) — это допустимая вероятность ошибки первого рода.
  • Мощность теста (обычно 80%) — это вероятность правильно поймать эффект, если он есть. 1 минус мощность = вероятность ошибки второго рода.
  • Чем строже порог значимости, тем реже ложные тревоги, но и тем больше пропусков реальных эффектов при той же выборке.

Где это особенно важно

  • Медицина: одна цена у «зря назначили лечение», другая — у «пропустили серьёзный диагноз».
  • Антифрод: ошибка пропуска мошенника обычно дороже ошибки ложного срабатывания (с учётом обработки).
  • A/B-тесты в продукте: ложный «успех» приводит к внедрению бесполезных изменений и потере фокуса.

Когда применять и когда нет

Применять

  • При проектировании A/B-тестов
  • При выборе порогов в моделях классификации
  • В рисковых системах, где цены разных ошибок различны

Не применять

  • Не нужно жёстко применять во всех бизнес-обсуждениях — иногда достаточно сказать «есть ли реальный эффект» без формального разбора типов ошибок

Примеры применения

Антифрод-модель банка детектирует подозрительные операции. На выборе порога команда осознанно идёт на больший процент ложных срабатываний (ошибка I рода), потому что цена пропуска мошеннической транзакции (ошибка II рода) — реальные деньги и репутационные потери. Это решение фиксируется письменно, чтобы потом не спорить, почему «легитимные клиенты иногда натыкаются на дополнительную проверку».

Часто задаваемые вопросы

Только увеличив выборку или снизив дисперсию метрики. При фиксированных данных снижение одной ошибки автоматически увеличивает другую. Это базовый компромисс статистики, и его нельзя «обойти», только осознанно выбрать точку.

Чаще беспокоят ошибки I рода: внедрить изменение, которое на самом деле ничего не меняет. Но если эффект небольшой и команде дорого его пропустить, важно следить и за мощностью теста (то есть за ошибкой II рода).

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.