calcal.ru
Data Warehouse Calculator v1.0

Калькулятор Data Warehouse

Рассчитайте размер хранилища, оцените производительность запросов, выберите схему данных, стратегию партиционирования и сравните стоимость облачных DWH-платформ.

Загрузка калькулятора Data Warehouse...
6
Модулей расчёта
Star
vs Snowflake
SCD
Type 1/2/3
5
Облачных провайдеров

Зачем планировать Data Warehouse?

Хранилище данных (DWH) — центральный элемент аналитической инфраструктуры компании. Ошибки в проектировании схемы, выборе партиционирования или облачного провайдера ведут к медленным запросам, раздутым счетам и потере данных. Правильное планирование экономит миллионы рублей ежегодно.

Размер и рост хранилища

Объём DWH складывается из факт-таблиц (транзакции, события) и таблиц измерений (справочники, каталоги). Колоночное сжатие (LZ4, ZSTD) уменьшает размер в 3-5 раз. Важно прогнозировать рост на 1-3 года вперёд для планирования бюджета.

Size = (Fact_rows × row_size + Dim_tables × dim_rows × dim_row_size) × compression

Производительность запросов

Время аналитических запросов зависит от объёма данных, количества JOIN-ов, типа агрегаций, наличия индексов и партиционирования. Правильная архитектура позволяет выполнять запросы к терабайтам данных за секунды.

T_query = (Data / Scan_rate) × JOIN_factor × AGG_factor × INDEX × PARTITION

Data Warehouse в России

Российские компании активно строят собственные хранилища данных после ухода зарубежных вендоров. Основные тренды: импортозамещение на отечественные СУБД, переход на открытые решения и локальные облачные платформы.

Требования ФЗ-152 о хранении данных в РФ делают выбор Yandex Cloud, VK Cloud и Selectel приоритетным. ClickHouse, Greenplum (Arenadata) и PostgreSQL стали основой аналитических платформ крупнейших компаний.

CH

ClickHouse

Российская OLAP-СУБД от Яндекса. Колоночное хранение, миллиарды строк/с.
GP

Greenplum / Arenadata

MPP-DWH для enterprise. Популярен в банках, телекоме, ритейле.
YC

Yandex Cloud

Managed ClickHouse, Data Proc, DataSphere. Инфраструктура в России.

Возможности калькулятора

S

Размер хранилища

Оценка объёма факт-таблиц и измерений, выбор сжатия (LZ4, ZSTD, GZIP), прогноз роста на месяцы и годы.

Q

Производительность

Оценка времени запроса с учётом JOIN-ов, агрегаций, индексов, партиций и размера кластера. P50/P95/P99.

D

Схема данных

Сравнение Star, Snowflake и денормализации. Оценка JOIN-ов, размера строк, коэффициента хранения.

P

Партиционирование

Расчёт оптимального размера партиций, экономии от pruning, сравнение time-based и hash-based стратегий.

$

Стоимость

Расчёт стоимости хранения и вычислений для BigQuery, Redshift, Snowflake, ClickHouse Cloud и Yandex.

M

Data Modeling

Оценка SCD Type 1/2/3: overhead хранения, рост версий, сравнение подходов к медленно меняющимся измерениям.

Часто задаваемые вопросы

Data Warehouse (DWH) — это структурированное хранилище данных, оптимизированное для аналитических запросов (OLAP). Данные организованы в схемы Star/Snowflake с факт-таблицами и измерениями. Data Lake хранит данные в сыром виде (Parquet, JSON, CSV) без жёсткой схемы. Современный тренд — Data Lakehouse, объединяющий оба подхода.
Star Schema (Кимболл) — плоские измерения, меньше JOIN-ов, быстрые запросы. Подходит для большинства случаев. Snowflake (Инмон) — нормализованные измерения, меньше избыточности, но больше JOIN-ов. Используется при ограниченном хранилище или строгих требованиях к консистентности.
Стоимость зависит от провайдера: BigQuery — $20/ТБ/мес хранение + $5/ТБ запросы. Redshift — $24/ТБ/мес + ноды. Snowflake — $23/ТБ/мес + кредиты. ClickHouse Cloud — $15/ТБ/мес. Yandex Managed CH — от $10/ТБ/мес. Для 10 ТБ рассчитывайте на $100–$500/мес только за хранение.
SCD — методы управления изменениями в таблицах измерений. Type 1 просто перезаписывает данные (без истории). Type 2 создаёт новую строку для каждого изменения (полная история, но рост хранилища). Type 3 добавляет столбцы prev_ для предыдущих значений. Выбор зависит от требований к аудиту и бюджета хранилища.
Партиционирование разбивает таблицу на части по ключу (дата, хеш). Partition pruning позволяет сканировать только нужные партиции. Например, запрос за последние 7 дней к таблице с годовыми данными прочитает только 2% данных, ускорив выполнение в 50 раз. Оптимальный размер партиции: 64 МБ – 2 ГБ.
ClickHouse — #1 для аналитики, разработан Яндексом. Greenplum/Arenadata — MPP-DWH для enterprise (банки, телеком). Yandex Managed ClickHouse — managed-сервис с автомасштабированием. PostgreSQL + Citus — для средних нагрузок. Также используются Apache Druid, Apache Doris и StarRocks.
Размер DWH = (строки факт-таблицы × размер строки + сумма измерений) × коэф. сжатия. Типичное сжатие для колоночных OLAP (ZSTD): 3–5x. Добавьте 30% на индексы, метаданные и временные таблицы. Учтите рост данных: 10–20% в год для большинства компаний.

Полезные ресурсы

CH

ClickHouse

Российская колоночная OLAP-СУБД. Обработка миллиардов строк в секунду, идеальна для DWH и аналитики.

BQ

Google BigQuery

Serverless DWH от Google. Автомасштабирование, оплата по запросам, встроенный ML (BigQuery ML).

SF

Snowflake

Мультиоблачный DWH. Разделение хранения и вычислений, Time Travel, Zero-Copy Cloning.

RS

Amazon Redshift

MPP-DWH от AWS. Columnar storage, RA3 ноды с управляемым хранилищем, интеграция с экосистемой AWS.

dbt

dbt (data build tool)

Трансформация данных в DWH через SQL. Версионирование моделей, тесты, документация, lineage.

GP

Greenplum / Arenadata

MPP-DWH на базе PostgreSQL. Enterprise-решение для российских банков и телекома. Импортозамещённый.

Лиана Арифметова
Создатель

Лиана Арифметова

Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

⚖️

Отказ от ответственности

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.

Похожие инструменты

🏥

Калькулятор критериев Рэнсона (панкреатит)

Оценка тяжести острого панкреатита по критериям Рэнсона. При поступлении и через 48 часов. Прогноз летальности.

💰

Калькулятор торгового финансирования (аккредитив, факторинг)

Расчёт стоимости аккредитива (UCP 600), факторинга, форфейтинга и банковской гарантии. Сравнение инструментов торгового финансирования для ВЭД.

🔄

Калькулятор контрольных цифр: ISBN, IBAN, Luhn

Проверка и расчет контрольных чисел (Check Digit). Валидация ISBN-13, ISBN-10, IBAN и алгоритм Луна (Luhn) для банковских карт и IMEI.

📐

Генератор случайных чисел

Рандомайзер чисел онлайн. Генерация случайных чисел в заданном диапазоне. Настройка количества и повторов.

🏭

Калькулятор производства: расход, выход, себестоимость

Калькулятор расхода сырья, процента выхода готовой продукции и производственной себестоимости единицы. Для технологов и планирования.

🏭

Калькулятор штрихкода (EAN/UPC) и упаковки

Проверка контрольной цифры штрихкодов (EAN-13, EAN-8, UPC) и расчет параметров упаковки (объем, вес).

🏠

Калькулятор пени: налоги (ст. 75 НК) и договор

Расчет налоговой пени (1/300 и 1/150). Поиск неустойки по ст. 395 ГК РФ и договорам. История ключевой ставки ЦБ.

⚙️

Калькулятор механической обработки

Расчёты обработки: токарная, фрезерование, сверление, инструмент, мощность, время

🏥

Калькулятор формулы Паркланда (ожоги)

Расчёт объёма инфузионной терапии при ожогах. Рингера лактат, первые 24 часа, скорость введения капель.

💻

Калькулятор градиентов и интерполяции цветов

Генератор плавных переходов между цветами. Создайте CSS градиент онлайн, получите коды цветов (HEX/RGB) и настройте количество шагов.

🌿

Калькулятор деревьев для компенсации CO₂

Рассчитайте, сколько деревьев нужно посадить для компенсации углеродного следа. Экологический калькулятор лесовосстановления.

Калькулятор центростремительной силы

Расчёт центростремительной силы и ускорения. Движение по окружности, угловая скорость, перегрузка (G-force).

⚙️

Калькулятор силовой электроники

Расчёты силовой электроники: выпрямители, инверторы, DC-DC преобразователи, тепловой расчёт, фильтры

🏭

Калькулятор промышленной химии

Конверсия, селективность, выход реактора, материальный баланс, атомная экономия, E-фактор, ректификация, TON/TOF катализатора.

💰

Калькулятор для фрилансера (самозанятый, ИП)

Сравните налоговые режимы: самозанятый (НПД 4/6%), ИП на УСН 6/15%, Патент. Расчет чистого дохода и оптимального режима.