#DWH

2026-02-13

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

2026-02-12

Как мы сократили Lead Time с полутора недель до четырёх часов

Привет! Меня зовут Антон, я ведущий программист департамента аналитических решений ЮMoney. Хочу поделиться историей о том, как наша команда ускорила один из самых рутинных процессов в работе дата-инженера — загрузку информации из нового источника данных в хранилище. Мы не просто оптимизировали процесс, а практически свели к нулю многодневную рутину и тем самым высвободили время для решения более интересных задач. Наше технологичное решение помогает превратить сложный и долгий процесс в понятный и быстрый. Если вы строите хранилище данных, развиваете data-платформу или просто устали от однотипных ETL-задач, отнимающих недели, — этот разбор будет вам полезен. Покажу, какие архитектурные решения мы рассматривали и что в итоге сработало.

habr.com/ru/companies/yoomoney

#dwh #etl #lead_time #кодогенерация #метаданные #платформенный_подход

2026-02-09

Medallion в ClickHouse: DWH без миграций схемы

Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.

habr.com/ru/articles/991588/

#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault

2026-01-20

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

habr.com/ru/companies/datasapi

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

2025-12-28

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито . В этой статье хочу поделиться нашим опытом построения Lakehouse поверх объектного хранилища — и тем, как реальная аналитическая нагрузка быстро превращает «обычный S3» в самый капризный элемент всей архитектуры. Будет много про извлечение максимума производительности из Ceph: как добиться высокой пропускной способности HDD, когда поверх данных хочется запускать тяжёлые аналитические запросы.

habr.com/ru/companies/avito/ar

#ceph #lakehouse #s3 #dwh

2025-12-27

Trino в Авито два года спустя: от движка к полноценной экосистеме

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito . Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны. Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

habr.com/ru/companies/avito/ar

#dwh #lakehouse #trino #vertica #mpp #hive #iceberg #ceph #s3 #orc

2025-12-25

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Последний раз мы подробно писали о нашей платформе почти четыре года назад — в статье «Эволюция хранилища данных в Авито» . С тех пор аналитическая платформа сильно изменилась — и по масштабу, и по сложности.

habr.com/ru/companies/avito/ar

#dwh #trino #vertica #mpp #аналитическая_платформа

🅱🅸🅶🅾🆁🆁🅴.🅾🆁🅶bigorre_org
2025-12-21

Aviation weather for David Wayne Hooks Memorial airport in Houston area (USA) is “SPECI KDWH 211607Z 18004KT 7SM BKN012 24/21 A3015 RMK AO2 T02440206” : See what it means on bigorre.org/aero/meteo/kdwh/en vl

2025-12-19

Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench

В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench. ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.

habr.com/ru/companies/datasapi

#clickhouse #starrocks #trino #impala #bigdata #dwh #s3 #bi

2025-12-15

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

Привет, Хабр! На связи — технические лидеры направления разработки Apache Spark в составе платформы Data Ocean Андрей Первушин и Дмитрий Паршин из Data Sapience . Мы занимаемся решением нетривиальных задач в области Spark-вычислений, некоторые из которых становятся частью конечного продукта. Сегодня мы расскажем, с какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg, что такое equality delete, почему они создают нагрузку при чтении таблиц в Apache Iceberg и как мы оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.

habr.com/ru/companies/datasapi

#spark #iceberg #lakehouse #dwh #spark_streaming

2025-12-15

Flink Kubernetes operator: опыт построения стриминговой Big Data платформы

Всем привет! Меня зовут Артемий, я работаю SRE-инженером в команде RTP (real time processing) Clickstream в Авито . Сегодня мы хотим поделиться нашей историей о том, как мы переехали в Kubernetes, развернув Apache Flink с помощью Flink k8s operator.

habr.com/ru/companies/avito/ar

#data #dwh #DataOps #bigdata #flink #sql #realtime #analytics #analytical_engine

2025-12-12

Нагрузочное тестирование YMatrix

Привет, Хабр! На связи Марк — ведущий архитектор группы компаний «ГлоуБайт». Сегодня мы немного расширим результаты нагрузочного тестирования из предыдущей статьи “ Нагрузочное тестирование GP6 vs GP7 vs Cloudberry ” и поделимся результатами тестирования YMatrix. Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше.

habr.com/ru/companies/glowbyte

#нагрузочное_тестирование #sql #posgresql #dwh #gp7 #gp6 #ymatrix #glowbyte #cloudberry #tpcds

2025-12-08

Выбор российского ETL-инструмента в 2025 и чек-лист

Привет! Перед вами новое исследование, посвящённое одной из ключевых технологий управления данными — процессам извлечения, преобразования и загрузки данных (ETL) . Оно стало логическим продолжением первого обзора рынка ETL-решений, выпущенного нашей командой три года назад. За это время многое изменилось. Если в 2022-м рынок опирался на зарубежные платформы, то сегодня акценты сместились в сторону отечественных продуктов. Причины очевидны: уход иностранных вендоров, трудности с продлением лицензий, обновлениями и поддержкой. Импортозамещение из формальности превратилось в стратегическую задачу, а потребность в надёжных российских инструментах — в вопрос технологической безопасности. Одновременно усилились и глобальные вызовы: рост объёмов данных, переход бизнеса к моделям прогнозной аналитики и управлению на основе данных. ETL-системы в этой экосистеме занимают фундаментальное место — именно они превращают разрозненные источники в согласованный поток информации, на котором строятся аналитика, модели машинного обучения и управленческие решения.

habr.com/ru/articles/974502/

#ETL #extract #transform #load #загрузка_данных #dwh #хранилище_данных #слои_данных

2025-11-28

Как автоматизировать загрузку данных в DWH и не сойти с ума

Привет! Меня зовут Андрей, я Data Engineer в компании GRI. Мы занимаемся заказной разработкой, и один из наших ключевых клиентов — Sunlight. Я расскажу, как не тратить время на рутину в процессах и автоматизировать всё, что только можно. Это будет особенно актуально тем, кто в компании solo Data Engineer.

habr.com/ru/companies/gri/arti

#dwh #etl #airflow #clickhouse #автоматизация #кхд #GRI

2025-11-26

Как в Авито обеспечивают self-service разработки и деплоя витрин

Привет! Меня зовут Николай Огоров, я Big Data-инженер в Авито . В этой статье я и мой коллега Айк Оганесян расскажем, как обеспечили пользователей инструментами, которые дают им возможность самим создавать витрины в хранилище Авито без привлечения специалистов. Эта история больше про подходы, решения и философию, которые позволяют жить в парадигме, когда потребностей на создание объектов DWH стало сильно больше, чем возможностей Data-инженеров.

habr.com/ru/companies/avito/ar

#dwh #selfservice #авито #avito #avitotech #витрины_данных

2025-11-26

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

habr.com/ru/articles/970388/

#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH

2025-11-18

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz. Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

habr.com/ru/articles/967736/

#dwh #data_warehouse #data_engineering #корпоративное_хранилище_данных #кхд

2025-11-18

Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

habr.com/ru/articles/967608/

#starrocks #привилегии #роли #rbac #grant #revoke #olap #mpp #dwh #безопасность_данных

2025-11-14

Как стартовать с Data Lakehouse и перейти на Data Lake

В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

habr.com/ru/companies/magnit/a

#magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

2025-11-07

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

habr.com/ru/companies/datasapi

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst