Попробовать бесплатно

Хранилище данных (Data Warehouse)

Хранилище данных — не просто «большая база». Оно устроено так, чтобы хорошо отвечать на аналитические вопросы по агрегированным данным, а не обслуживать продуктовые транзакции.

Особенности

  • Колонное хранение и сжатие — быстрые агрегаты по миллионам строк.
  • Слои данных: сырой (raw), промежуточный (staging), бизнес-витрина (marts).
  • Регулярные ELT-процессы, которые обновляют данные на разном частотном интервале.
  • Управление доступом по командам и ролям.

Что обычно лежит

  • События продукта (events).
  • Финансовые транзакции и выручка.
  • Маркетинг и рекламные расходы.
  • Воронки продаж, сделки, поддержка.
  • HR, операционные и другие справочные данные.

Когда применять и когда нет

Применять

  • Источников данных больше двух и они нужны вместе
  • Аналитика в боевой базе уже мешает работе продукта
  • Нужна история данных без оглядки на удаления и обновления в источниках

Не применять

  • Только один источник данных и команда из 3–5 человек — пока хватит грамотных представлений в самой продуктовой базе

Примеры применения

До хранилища аналитика стартапа жила в боевой Postgres-базе и ломала отчёты при больших запросах. После переезда на BigQuery с регулярной репликацией через Fivetran продуктовая база перестала «лежать» от тяжёлых SQL-отчётов. Все маркетинговые расходы и события продукта теперь в одном месте, и команда может быстро отвечать на вопросы вроде «какой ROAS у новой кампании на горизонте 90 дней» без ручной сшивки выгрузок.

Часто задаваемые вопросы

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.