<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно

Хранилище данных (Data Warehouse)

Хранилище данных — не просто «большая база». Оно устроено так, чтобы хорошо отвечать на аналитические вопросы по агрегированным данным, а не обслуживать продуктовые транзакции.

Особенности

  • Колонное хранение и сжатие — быстрые агрегаты по миллионам строк.
  • Слои данных: сырой (raw), промежуточный (staging), бизнес-витрина (marts).
  • Регулярные ELT-процессы, которые обновляют данные на разном частотном интервале.
  • Управление доступом по командам и ролям.

Что обычно лежит

  • События продукта (events).
  • Финансовые транзакции и выручка.
  • Маркетинг и рекламные расходы.
  • Воронки продаж, сделки, поддержка.
  • HR, операционные и другие справочные данные.

Когда применять и когда нет

Применять

  • Источников данных больше двух и они нужны вместе
  • Аналитика в боевой базе уже мешает работе продукта
  • Нужна история данных без оглядки на удаления и обновления в источниках

Не применять

  • Только один источник данных и команда из 3–5 человек — пока хватит грамотных представлений в самой продуктовой базе

Примеры применения

До хранилища аналитика стартапа жила в боевой Postgres-базе и ломала отчёты при больших запросах. После переезда на BigQuery с регулярной репликацией через Fivetran продуктовая база перестала «лежать» от тяжёлых SQL-отчётов. Все маркетинговые расходы и события продукта теперь в одном месте, и команда может быстро отвечать на вопросы вроде «какой ROAS у новой кампании на горизонте 90 дней» без ручной сшивки выгрузок.

Часто задаваемые вопросы

Обычная база (OLTP) заточена под быстрые транзакции: добавил заказ, обновил профиль, перевёл деньги. DWH (OLAP) — под быстрые ответы на тяжёлые аналитические запросы по миллионам и миллиардам строк. Структуры данных и движки у них разные, и пытаться делать аналитику в OLTP обычно плохая идея.

Среди облачных популярны BigQuery (Google), Snowflake, Redshift (AWS), ClickHouse и его managed-варианты. Выбор обычно идёт от того, где уже живёт ваша инфраструктура и какой у команды опыт. Для большинства небольших продуктовых компаний разница между ними не критична.

Готовы применить теорию на практике?

Соберите команду в Shtab — единое пространство для проектов, целей и задач. Бесплатно до 5 человек.