Попробовать бесплатно

Качество данных

Большая часть проблем в аналитике и ML на самом деле — проблемы данных. Модели и дашборды лишь усиливают то, что приходит на вход.

Ключевые свойства

  • Полнота — нет пропущенных полей и записей, которые должны были быть.
  • Точность — значения соответствуют реальности.
  • Актуальность — данные обновляются с нужной частотой.
  • Согласованность — одни и те же сущности одинаково описаны в разных системах.
  • Уникальность — нет дубликатов, размывающих агрегаты.
  • Валидность — данные соответствуют формату и допустимым значениям.

Где обычно ломается

  • Изменения в продуктовой схеме без уведомления аналитиков.
  • Ручной ввод и опечатки в важных полях.
  • Расхождение часовых поясов и форматов дат.
  • Скрытые удаления и обновления, которые не попадают в аналитический пайплайн.

Когда применять и когда нет

Применять

  • Перед запуском новой витрины или модели
  • В регулярных проверках в пайплайнах данных
  • При расследовании расхождений между отчётами разных команд

Не применять

  • Не существует — игнорирование качества данных всегда оборачивается дороже, чем работа над ним

Примеры применения

Финансовый отчёт показывает странное падение выручки. Через час расследования выясняется, что новый разработчик переименовал поле в продуктовой базе, и пайплайн загрузки тихо начал писать в него NULL. Тесты на полноту в загрузках поймали бы это в момент запуска, но их не было. После инцидента команда добавила автоматические проверки уровня «доля NULL не выше X», и подобный сценарий теперь обнаруживается за минуты, а не за часы.

Часто задаваемые вопросы

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.