#%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

2026-01-29

Книга: «Анализ данных с помощью GenAI и Python»

Привет, Хаброжители! Эта книга — практическое руководство для тех, кто превращает данные в решения. Шаг за шагом вы разберетесь, как современные методы искусственного интеллекта помогают не просто интерпретировать массивы информации, но и находить скрытые закономерности, позволяют прогнозировать будущее и создавать конкурентные преимущества для бизнеса. Вы получите системное понимание инструментов анализа, узнаете о лучших практиках применения машинного обучения и научитесь интегрировать ChatGPT в ежедневные рабочие процессы.

habr.com/ru/companies/piter/ar

#книга #анализ_данных #genai

2026-01-25

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

2026-01-22

Индекс Шивы: словесный винегрет на 1000 рублей. Встряхнем «рынок лимонов»?

Новый индекс, свежий взгляд на тексты вакансий. Ничего инновационного: только количество символов и зарплата. Но что на самом деле расскажет загадочный Индекс Шивы ? Сможет ли он стать оружием в этой «игре лимонов»? Анализ почти 50 000 вакансий в неожиданном ракурсе. Возможно, это лишь средство от скуки и бесполезное число. А может — начало чего-то большего. Внутри — формула, графики и ответ на вопрос: имеет ли смысл вообще считать символы в вакансиях?

habr.com/ru/articles/987274/

#Индекс_Шивы #анализ_данных #рынок_труда #HRtech #статистика #зарплаты_в_IT #поиск_работы #анализ_вакансий #токсичность #управление_разработкой

2026-01-21

Рецензия на книгу “Современная аналитика данных в Excel: Использование Power Query, Power Pivot и других инструментов”

Это не книга про Excel как электронную таблицу и не сборник «трюков и рецептов». Литературы по Excel существует огромное количество — от пособий для бухгалтеров до массивных справочников по формулам. Excel как продукт существует почти 40 лет, и на фоне Python, R, BI-платформ и облачных аналитических стеков может показаться, что в середине 2020-х годов писать о нем уже нечего. Однако книга Джорджа Маунта показывает обратное. Здесь Excel рассматривается как полноценная аналитическая платформа, встроенная в современный стек анализа данных — со своим ETL, моделью данных, языками запросов и элементами augmented analytics и машинного обучения.

habr.com/ru/companies/ssp-soft

#excel_формула #excel #excel_addin #аналитика #анализ_данных #аналитика_данных #аналитик

2026-01-20

Разбираемся с GlowByte, как выбрать BI-платформу в 2026: от универсальных критериев к сценарному подходу

Всем привет! На связи практика Business Intelligence GlowByte. Открываем год полезной информацией. В 2022 году мы опубликовали на Habr статью про выбор BI-платформы, публикация набрала более 24 000 просмотров. Тогда наш подход был простым: составили большую таблицу сравнения по множеству критериев, поставили баллы — и вуаля, выбирайте лидера. Четыре года спустя понимаем: такой подход работал для своего времени, но сегодня устарел. В условиях большой неопределенности компании действительно искали универсальные решения "на все случаи жизни". Логика была понятной: выбираем один инструмент, который закроет максимум потребностей на годы вперед. Но рынок BI созрел. Заказчики стали подходить к выбору осознаннее, исходя не из абстрактного функционала, а из конкретных бизнес-сценариев. И оказалось, что попытка найти "универсальную пилюлю" часто приводит к разочарованию. Расскажу, как мы в GlowByte пересмотрели методику выбора BI и почему сценарный подход работает эффективнее.

habr.com/ru/companies/glowbyte

#BI #Business_Intelligence #GlowByte #анализ_данных #визуализация_данных #selfservice_BI #выбор_ИТрешений #управленческая_отчетность #дашборды #ИТконсалтинг

2026-01-19

Покоряем гору временных рядов: делаем прогноз для 200+ рядов с библиотекой Etna

Я работаю дата-сайентистом 5 лет и до сих пор испытываю боль, когда нужно сделать MVP по временным рядам. Начиная с того, как построить несколько графиков одновременно без «слипшихся» меток по осям, заканчивая поиском подходящего метода очистки ряда от аномалий. И всё это венчает цикл по каждому ряду с бесконечным жонглированием данными между numpy, pandas, sklearn, yet_another_library. Если вы DS, и тоже, как и я, устали от вот этого всего, добро пожаловать под кат. Я покажу, как написать production-ready код для прогноза 200+ временных рядов от EDA до результата. Разберем на практике, как бороться с аномалиями, ловить смены тренда и в итоге – получить масштабируемое решение, а не очередной «велосипед».

habr.com/ru/companies/magnit/a

#data_science #machine_learning #анализ_данных #временные_ряды #productionready_код #прогнозирование #прогнозирование_спроса #магнит #etna

2026-01-17

Рынок лимонов и «размалеванные барышни»: текст вакансии как честное зеркало компании (датасет 146 000 вакансий)

Пока соискателей учат быть «размалеванными барышнями», работодатели на «рынке лимонов» никому ничего не должны. Можно ли узнать, что ждет внутри, еще до получения оффера? Что, если я скажу: текст вакансии — это честная проекция «внутренней кухни» компании? Я уверена, так как проверила это на личном кейсе, и, вооружившись этим инструментом, проанализировала 146 000 вакансий . О том, почему и как это возможно — для тех, кто не считает неудачное трудоустройство «ценным опытом» — рассказываю ниже.

habr.com/ru/articles/986086/

#NLP #Data_Science #анализ_данных #рынок_труда #поиск_работы #корпоративная_культура #анализ_вакансий #HRtech #карьера #выгорание

2026-01-11

Визуализация на Python за 15 минут: пошаговый гайд по Seaborn для начинающих

Matplotlib — это мощно, но часто «многословно». Чтобы превратить стандартный график в нечто презентабельное, приходится писать десятки строк настройки осей и легенд. В этой статье я собрал практическую шпаргалку (Cookbook) по библиотеке Seaborn. Разберем, как одной строкой строить красивые Heatmap, Boxplot и Pairplot. Минимум теории, максимум готовых рецептов (copy-paste), которые покроют 90% задач аналитика.

habr.com/ru/articles/984144/

#seaborn #python3 #визуализация_данных #data_science #matplotlib #анализ_данных

2026-01-04

Построение иерархии классов для множества объектов информационной модели

Привет, Хабр! ИТ-проекты – это далеко не только создание новых систем с нуля. Существенная часть специалистов занята поддержкой и сопровождением действующих систем. А когда в состав ИТ-системы добавляется новое ПО (или заменяется какой-то из её компонентов), актуальной задачей является перенос архивных данных и настройка взаимодействия нового софта с окружающим ландшафтом. При этом задачей-максимум является добавление новых свойств для системы, улучшающих пользовательский опыт или процессы администрирования и сопровождения. Ниже я расскажу, как мы провели классификацию объектов информационной модели при интеграции действующей системы расчета производственных показателей с внешней, вновь создаваемой системой управления НСИ.

habr.com/ru/articles/982728/

#анализ_данных #анализ_и_проектирование_систем #наследование #иерархические_данные #uml #кластеризация

2026-01-03

OI‑сигналы и автоматический трейдинг: пишем трейдинг телеграм бота

Цель этой статьи — максимально подробно и практично разобрать реальный Python‑проект автоматического трейдинга. Это рабочий бот, который непрерывно анализирует рынок Binance Futures, ищет сигналы по открытому интересу (Open Interest), применяет набор защитных фильтров, работает с множеством пользователей одновременно, управляется через Telegram‑интерфейс, и при необходимости открывает реальные сделки через API биржи BingX. Я последовательно разберу всю логику и все функции основного файла main.py , объясняя, как и зачем они реализованы именно так.

habr.com/ru/articles/982572/

#api #алгоритмы #финансы #криптовалюты #торговые_роботы #алготрейдинг #алгоритмическая_торговля #телеграм_боты #анализ_данных #трейдинг

2025-12-25

Почему мультиагентные системы плохо работают на малых данных

Мультиагентные системы - главный тренд в AI-разработке. AutoGPT, CrewAI, LangGraph, Microsoft AutoGen обещают армию специализированных агентов, которые вместе решат любую задачу. Сделал систему на 5 агентов, а потом передумал и сделал на одного. История о том, что иногда с ИИ надо упрощать, а не усложнять.

habr.com/ru/articles/980492/

#grok #xai #python #архитектура #code_execution #искуственный_интеллект #анализ_данных #дашборд #bi #агенты_ии

2025-12-25

Что посмотреть на новогодних каникулах: 11 фильмов и 1 сериал про анализ данных и математику

Всем привет! При свете дня я — Ольга Матушевич, преподаватель

habr.com/ru/companies/yandex_p

#подборка_фильмов #что_посмотреть #фильмы_для_аналитика #анализ_данных

2025-12-23

Аналитическая инфраструктура для сбора и исследования данных Steam: архитектура, пайплайны, результаты

Steam — одна из крупнейших платформ цифровой дистрибуции игр, и одновременно огромный источник данных: каталоги игр, отзывы, достижения, ценовые метрики, активность игроков, региональные различия и многое другое. Однако прямого доступа к агрегированным данным у исследователей нет — их необходимо собирать вручную через Steam Web API и сторонние сервисы. В этом проекте мы разработали полноценный программный комплекс для автоматизированного сбора, хранения и анализа данных Steam . Построили двухуровневую архитектуру хранилища, реализовали оркестрацию чанков, разработали пайплайны работы с API и конфигурацию параллельного масштабирования. На основе собранных данных сформирован датасет объёмом десятки тысяч игр и сотни тысяч пользователей — и проведён базовый аналитический обзор рынка.

habr.com/ru/articles/979792/

#big_data #анализ_данных #Steam #Steam_Web_API

2025-12-23

Автоматизация фоновой аналитики в финтехе с помощью background LLM‑агента: реальный опыт

Всем привет, меня зовут Максим Шаланкин, Machine Learning Team Lead в команде финтеха Big Data MWS. Внутренняя аналитика в финтехе живет в режиме постоянной гонки: новые клиенты приходят, ведут себя по‑разному, а бизнесу нужно быстро понимать, чем группы с разными сценариями отличаются друг от друга. При этом значительная часть работы аналитика — это однотипное сравнение когорт и поиски закономерностей в табличках и графиках. Фоновый LLM‑агент, который умеет сам поднимать данные, запускать статистические проверки и возвращать готовые инсайты, заметно сокращает путь от данных до решения. Под катом — разбор, как устроен такой background‑агент для анализа активности новых клиентов, на чем он основан, как мы минимизируем галлюцинации и почему выбрали архитектуру, похожую на Claude Skills, а не идем в сторону MCP‑подхода.

habr.com/ru/companies/ru_mts/a

#Сезон_ИИ_в_разработке #LLMагенты #автоматизация_аналитики #продуктовая_аналитика #финтех #backgroundагенты #агентная_архитектура #анализ_данных #Python

2025-12-22

Как я написал скрипт для 24-часового прогноза рынка: корреляции, волатильность и вероятностная модель

Финансовые рынки редко движутся изолированно. Криптовалюты реагируют на фондовые индексы, золото реагирует на макроэкономику, а внутри крипторынка движение биткоина задаёт направление для альткоинов. Гипотеза проекта : Если агрегировать данные по разным классам активов (крипто, акции, золото), измерить их волатильность, тренд и взаимную корреляцию, можно получить осмысленную вероятностную оценку того, каким будет рынок в ближайшие 24 часа: рост, падение или консолидация.

habr.com/ru/articles/979274/

#алгоритмы #финансы_в_it #криптовалюты #крипторынок #анализ_данных #аналитика #алгоритмическая_торговля #торговые_роботы

2025-12-21

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru . Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.

habr.com/ru/articles/979118/

#Анализ_данных #Python #hhru #API #SQLite #Визуализация_данных #базы_данных #data_science #проектирование_систем

2025-12-20

Почему аналитика не даёт измеримого бизнес-результата?

За десять лет практики в аналитике я часто сталкивался с ситуацией, когда аналитическая функция не даёт измеримого бизнес-результата. При этом от неё обычно ждут инсайтов, которые дают иксы прироста — иногда даже сами по себе, без внедрения. Проблема неприятная и распространённая. Она решается не просто и не быстро, но для построения устойчивого бизнеса в конкурентной среде решить её всё-таки придётся. Цель этой статьи — показать, в какой плоскости начинается результативность аналитики. Она будет полезна руководителям, которые задаются вопросом из заголовка, и аналитикам, которые много работают, но не видят измеримого эффекта. В чём, на мой взгляд, лежит корень этой проблемы? Основной барьер для получения дивидендов от аналитической функции — это не просто культура принятия решений на данных (которую все пытаются описать модным и часто спекулятивным термином data-driven culture ). Ключевая проблема — в системе взаимодействия, обратной связи и ответственности за результат, принятой в компании. Аналитика, как и любая функция в компании, — это инструмент. А любой инструмент даёт результат только при определённых условиях. Чтобы понять, какие условия необходимы именно вам, нужно честно ответить на три вопроса.

habr.com/ru/articles/978710/

#аналитика #datadriven #анализ_данных #управление_компанией

2025-12-17

Подсчёт недостающих оценок для получения определённого итогового балла

Этот материал для родителей, студентов и школьников, которые хотят при помощи математики оценить набор необходимых усилий, чтобы достичь определенных результатов.

habr.com/ru/articles/977850/

#математика #школа #оценки #анализ_данных

2025-12-10

[Перевод] Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

В реальных задачах машинного обучения куда чаще приходится иметь дело не с «миллионами картинок», а с небольшими табличными датасетами вроде Abalone из UCI. В статье разбирается путь от честного EDA и линейной регрессии до нейросетевой модели на PyTorch: что дают трансформации признаков, какие проблемы создают гетероскедастичность и мультиколлинеарность, когда глубокая модель действительно улучшает метрики, а когда остаётся всего лишь дорогим способом получить те же самые 4–5 % выигрыша. По сути, это разбор того, где проходит граница здравого смысла между «добавим ещё один слой» и «нам хватит простой модели».

habr.com/ru/companies/otus/art

#машинное_обучение #множественная_регрессия #нейронная_сеть #PyTorch #анализ_данных #EDA #инженерия_признаков #качество_модели #сравнение_моделей

2025-12-10

Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик

В A/B-тестах хотелось бы смотреть на главную метрику, ту самую North Star, которая показывает успех продукта. Но на практике она почти всегда медленная, шумная и бесполезная для быстрых решений. Например, вы запускаете тест новой системы рекомендаций, ждёте неделю, две, а LifeTime Value не двигается. И непонятно, это потому что нет результата или ещё рано делать выводы. Чтобы не тратить месяцы на догадки, можно воспользоваться прокси-метриками — быстрыми, чувствительными показателями, которые реагируют раньше, чем бизнес-метрика «успевает моргнуть». Проблема в том, что это решение часто требует дополнительные ресурсы. Привет, Хабр! Меня зовут Артем Ерохин, и я Data Scientist в X5 Tech. Я прочитал современные исследования, пропустил их через свой опыт и собрал концентрат подходов к работе с прокси-метриками. Постараюсь передать только суть. Разберемся, зачем нужны прокси, как с ними не выстрелить себе в ногу, где заканчивается польза и начинается самообман.

habr.com/ru/companies/X5Tech/a

#ab_тестирование #проксиметрики #эксперименты #причинноследственный_анализ #causal_inference #анализ_данных #product_analytics #surrogate_models #north_star_metric #корреляция

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst