<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Качество данных

Большая часть проблем в аналитике и ML на самом деле — проблемы данных. Модели и дашборды лишь усиливают то, что приходит на вход.

Ключевые свойства

  • Полнота — нет пропущенных полей и записей, которые должны были быть.
  • Точность — значения соответствуют реальности.
  • Актуальность — данные обновляются с нужной частотой.
  • Согласованность — одни и те же сущности одинаково описаны в разных системах.
  • Уникальность — нет дубликатов, размывающих агрегаты.
  • Валидность — данные соответствуют формату и допустимым значениям.

Где обычно ломается

  • Изменения в продуктовой схеме без уведомления аналитиков.
  • Ручной ввод и опечатки в важных полях.
  • Расхождение часовых поясов и форматов дат.
  • Скрытые удаления и обновления, которые не попадают в аналитический пайплайн.

Когда применять и когда нет

Применять

  • Перед запуском новой витрины или модели
  • В регулярных проверках в пайплайнах данных
  • При расследовании расхождений между отчётами разных команд

Не применять

  • Не существует — игнорирование качества данных всегда оборачивается дороже, чем работа над ним

Примеры применения

Финансовый отчёт показывает странное падение выручки. Через час расследования выясняется, что новый разработчик переименовал поле в продуктовой базе, и пайплайн загрузки тихо начал писать в него NULL. Тесты на полноту в загрузках поймали бы это в момент запуска, но их не было. После инцидента команда добавила автоматические проверки уровня «доля NULL не выше X», и подобный сценарий теперь обнаруживается за минуты, а не за часы.

Часто задаваемые вопросы

В идеале — общая модель: продуктовые команды отвечают за качество своих источников, дата-инженеры — за качество пайплайнов, аналитики — за качество витрин и отчётов. В реальности часто всё это сваливается на одну команду, и это плохо масштабируется. Лучше разделять ответственность письменно и публично.

Это направление инструментов и практик, которое автоматизирует мониторинг качества данных: следит за свежестью таблиц, объёмами, схемой, статистическими распределениями. Известные продукты в этой области — Monte Carlo, Bigeye, открытый Soda и другие. По смыслу это «мониторинг для данных», аналог observability в инфраструктуре.

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.