Качество данных
Большая часть проблем в аналитике и ML на самом деле — проблемы данных. Модели и дашборды лишь усиливают то, что приходит на вход.
Ключевые свойства
- Полнота — нет пропущенных полей и записей, которые должны были быть.
- Точность — значения соответствуют реальности.
- Актуальность — данные обновляются с нужной частотой.
- Согласованность — одни и те же сущности одинаково описаны в разных системах.
- Уникальность — нет дубликатов, размывающих агрегаты.
- Валидность — данные соответствуют формату и допустимым значениям.
Где обычно ломается
- Изменения в продуктовой схеме без уведомления аналитиков.
- Ручной ввод и опечатки в важных полях.
- Расхождение часовых поясов и форматов дат.
- Скрытые удаления и обновления, которые не попадают в аналитический пайплайн.
Когда применять и когда нет
Применять
- Перед запуском новой витрины или модели
- В регулярных проверках в пайплайнах данных
- При расследовании расхождений между отчётами разных команд
Не применять
- Не существует — игнорирование качества данных всегда оборачивается дороже, чем работа над ним
Примеры применения
Финансовый отчёт показывает странное падение выручки. Через час расследования выясняется, что новый разработчик переименовал поле в продуктовой базе, и пайплайн загрузки тихо начал писать в него NULL. Тесты на полноту в загрузках поймали бы это в момент запуска, но их не было. После инцидента команда добавила автоматические проверки уровня «доля NULL не выше X», и подобный сценарий теперь обнаруживается за минуты, а не за часы.
Часто задаваемые вопросы
В идеале — общая модель: продуктовые команды отвечают за качество своих источников, дата-инженеры — за качество пайплайнов, аналитики — за качество витрин и отчётов. В реальности часто всё это сваливается на одну команду, и это плохо масштабируется. Лучше разделять ответственность письменно и публично.
Это направление инструментов и практик, которое автоматизирует мониторинг качества данных: следит за свежестью таблиц, объёмами, схемой, статистическими распределениями. Известные продукты в этой области — Monte Carlo, Bigeye, открытый Soda и другие. По смыслу это «мониторинг для данных», аналог observability в инфраструктуре.