Качество данных

Аналитика и данные Инфраструктура данных Качество данных Обновлено 11 мая 2026

Большая часть проблем в аналитике и ML на самом деле — проблемы данных. Модели и дашборды лишь усиливают то, что приходит на вход.

Ключевые свойства

Полнота — нет пропущенных полей и записей, которые должны были быть.
Точность — значения соответствуют реальности.
Актуальность — данные обновляются с нужной частотой.
Согласованность — одни и те же сущности одинаково описаны в разных системах.
Уникальность — нет дубликатов, размывающих агрегаты.
Валидность — данные соответствуют формату и допустимым значениям.

Где обычно ломается

Изменения в продуктовой схеме без уведомления аналитиков.
Ручной ввод и опечатки в важных полях.
Расхождение часовых поясов и форматов дат.
Скрытые удаления и обновления, которые не попадают в аналитический пайплайн.

Когда применять и когда нет

Применять

Перед запуском новой витрины или модели
В регулярных проверках в пайплайнах данных
При расследовании расхождений между отчётами разных команд

Не применять

Не существует — игнорирование качества данных всегда оборачивается дороже, чем работа над ним

Примеры применения

Финансовый отчёт показывает странное падение выручки. Через час расследования выясняется, что новый разработчик переименовал поле в продуктовой базе, и пайплайн загрузки тихо начал писать в него NULL. Тесты на полноту в загрузках поймали бы это в момент запуска, но их не было. После инцидента команда добавила автоматические проверки уровня «доля NULL не выше X», и подобный сценарий теперь обнаруживается за минуты, а не за часы.

Часто задаваемые вопросы

Кто отвечает за качество данных?

В идеале — общая модель: продуктовые команды отвечают за качество своих источников, дата-инженеры — за качество пайплайнов, аналитики — за качество витрин и отчётов. В реальности часто всё это сваливается на одну команду, и это плохо масштабируется. Лучше разделять ответственность письменно и публично.

Что такое data observability?

Это направление инструментов и практик, которое автоматизирует мониторинг качества данных: следит за свежестью таблиц, объёмами, схемой, статистическими распределениями. Известные продукты в этой области — Monte Carlo, Bigeye, открытый Soda и другие. По смыслу это «мониторинг для данных», аналог observability в инфраструктуре.

Помог ли вам этот материал?

Качество данных

Ключевые свойства

Где обычно ломается

Когда применять и когда нет

✓ Применять

✗ Не применять

Примеры применения

Часто задаваемые вопросы

Связанные термины

Также см.:

Готовы применить теорию на практике?

Применять

Не применять