Хранилище данных (Data Warehouse)
Хранилище данных — не просто «большая база». Оно устроено так, чтобы хорошо отвечать на аналитические вопросы по агрегированным данным, а не обслуживать продуктовые транзакции.
Особенности
- Колонное хранение и сжатие — быстрые агрегаты по миллионам строк.
- Слои данных: сырой (raw), промежуточный (staging), бизнес-витрина (marts).
- Регулярные ELT-процессы, которые обновляют данные на разном частотном интервале.
- Управление доступом по командам и ролям.
Что обычно лежит
- События продукта (events).
- Финансовые транзакции и выручка.
- Маркетинг и рекламные расходы.
- Воронки продаж, сделки, поддержка.
- HR, операционные и другие справочные данные.
Когда применять и когда нет
Применять
- Источников данных больше двух и они нужны вместе
- Аналитика в боевой базе уже мешает работе продукта
- Нужна история данных без оглядки на удаления и обновления в источниках
Не применять
- Только один источник данных и команда из 3–5 человек — пока хватит грамотных представлений в самой продуктовой базе
Примеры применения
До хранилища аналитика стартапа жила в боевой Postgres-базе и ломала отчёты при больших запросах. После переезда на BigQuery с регулярной репликацией через Fivetran продуктовая база перестала «лежать» от тяжёлых SQL-отчётов. Все маркетинговые расходы и события продукта теперь в одном месте, и команда может быстро отвечать на вопросы вроде «какой ROAS у новой кампании на горизонте 90 дней» без ручной сшивки выгрузок.
Часто задаваемые вопросы
Обычная база (OLTP) заточена под быстрые транзакции: добавил заказ, обновил профиль, перевёл деньги. DWH (OLAP) — под быстрые ответы на тяжёлые аналитические запросы по миллионам и миллиардам строк. Структуры данных и движки у них разные, и пытаться делать аналитику в OLTP обычно плохая идея.
Среди облачных популярны BigQuery (Google), Snowflake, Redshift (AWS), ClickHouse и его managed-варианты. Выбор обычно идёт от того, где уже живёт ваша инфраструктура и какой у команды опыт. Для большинства небольших продуктовых компаний разница между ними не критична.