Lmst

Построение иерархии классов для множества объектов информационной модели

Привет, Хабр! ИТ-проекты – это далеко не только создание новых систем с нуля. Существенная часть специалистов занята поддержкой и сопровождением действующих систем. А когда в состав ИТ-системы добавляется новое ПО (или заменяется какой-то из её компонентов), актуальной задачей является перенос архивных данных и настройка взаимодействия нового софта с окружающим ландшафтом. При этом задачей-максимум является добавление новых свойств для системы, улучшающих пользовательский опыт или процессы администрирования и сопровождения. Ниже я расскажу, как мы провели классификацию объектов информационной модели при интеграции действующей системы расчета производственных показателей с внешней, вновь создаваемой системой управления НСИ.

https://habr.com/ru/articles/982728/

#анализ_данных #анализ_и_проектирование_систем #наследование #иерархические_данные #uml #кластеризация

Как и зачем мы разработали систему анализа аномальных логов. Кейс MWS

Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS. Вместе со своими коллегами — Тимуром Хабибулиным (data scientist) и Рафисом Ганеевым (senior devops engineer) — занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform. Чтобы улучшить качество наших сервисов, через которые МТС взаимодействует с партнерами, мы вынуждены постоянно внедрять новые решения, растить продукты и развивать их архитектуру, при этом нам важно обеспечивать надежность и стабильность работы ИТ-систем. Это не всегда дается легко, ведь объемы данных растут, и их нужно эффективно обрабатывать. Одной из основных проблем становится анализ логов — текстовых записей. В нашем случае они фиксируют события в работе систем, которые созданы за 25+ лет работы компании, а еще у них различные стеки и архитектурные подходы. Объемы данных настолько велики, что проанализировать вручную (например, в OpenSearch/Kibana) даже один продукт практически невозможно, иначе нам пришлось бы просматривать миллионы строк логов каждый день. Поэтому мы решили разработать систему, которая позволила бы автоматически выявлять в логах аномалии — события, не свойственные нормальному функционированию системы. Например, это могут быть следы багов, вызванных новыми релизами, или другие непредвиденные происшествия. Что из этого вышло — расскажу дальше.

https://habr.com/ru/companies/ru_mts/articles/977624/

#машинное_обучение #qdrant #observability #python #mws #Векторный_поиск #Кластеризация #HDBSCAN #bgem3 #микросервисы

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.

https://habr.com/ru/articles/973364/

#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация

Чипсы вместо поиска: рекомендации пользователям, когда о них ничего не известно

На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.

https://habr.com/ru/articles/964048/

#Поиск #Чипсы #Машинное_обучение #Рекомендации #Количественные_исследования #Анализ_данных #Продуктовая_разработка #Кластеризация #Решающее_дерево #python

[Перевод] Масштабирование кластера Valkey до 1 миллиарда запросов в секунду

Предстоящий релиз Valkey 9.0 несёт в себе значительные улучшения в отказоустойчивости больших кластеров, позволяя масштабироваться до 2000 узлов и достигать производительности свыше 1 миллиарда запросов в секунду, и всё это с гарантированно ограниченным временем восстановления. В этой статье мы рассмотрим, как работает система кластеризации Valkey, а также архитектурные усовершенствования и тщательное тестирование, которые сделали возможным такой уровень масштабирования.

https://habr.com/ru/articles/958998/

#valkey #redis #nosql #inmemory #кластеризация #высокая_производительность #open_source #базы_данных #масштабирование #1_миллиард_rps

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Знание классики - база любых собеседований на все грейды в DS! Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр , по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают. В этой части разберем: Деревья и ансамбли, метрические модели, кластеризацию кластеризацию Узнать вопросы и ответы на них

https://habr.com/ru/articles/955636/

#data_science #machinelearning #ml #ds #собеседование #деревья_решений #ансамбли #кластеризация #ml_engineer #data_scientist

Angie 1.10: разбор фич, планы на 1.11

Следуя устоявшемуся квартальному ритму выпуска значимых релизов, мы выпустили стабильные версии Angie и Angie PRO 1.10 — форка nginx, развиваемого в основном бывшими ключевыми разработчиками оригинального проекта. Как и в прошлый раз , расскажем подробнее о нововведениях, приводя примеры. Вы узнаете, в чём ключевая фишка нового релиза (картинка под заголовком намекает); также слегка приоткроем завесу тайны над тем, что у нас припасено на будущее. А пока — краткий список нововведений, которые будут разобраны ниже: — автоматическое проксирование и балансировка веб-сервисов в Docker-контейнерах (или Podman); — автоматическое получение TLS-сертификатов для потокового модуля (stream); — прием соединений Multipath TCP (MPTCP); — контроль перегрузки CUBIC в QUIC-соединениях; — привязка сессий с внешним хранилищем в модуле stream; — новые режимы привязки сессий при проксировании HTTP-запросов; — режим постоянного перехода на резервную группу в модуле stream.

https://habr.com/ru/articles/932024/

#nginx #docker #вебсервер #angie #podman #acme #mptcp #quic #http3 #кластеризация

Сегментация клиентов методом K-Means на стороне БД

Привет, Хабр! Сегодня мы рассмотрим, как заставить PostgreSQL самостоятельно крутить K-Means для сегментации клиентов, не вытаскивая данные наружу. Пройдемся по циклу: нормализуем фичи в materialized view, напишем функцию PL/PythonU, которая дергает scikit-learn, сохраняем cluster_id обратно в таблицу и закрываем гештальт отчётом «доход по кластеру» чистым SQL.

https://habr.com/ru/companies/otus/articles/930506/

#python #sql #кластеризация #postgresql #нормализация_данных #хранимая_процедура

[Перевод] Растянутый кластер Ceph: обработка сбоев. Часть 3

Во 2 части части этой серии мы рассмотрели практическое развертывание кластера Ceph на двух площадках с отдельной tie-breaker локацией, с использованием пользовательского файла спецификации для компонентов Ceph, CRUSH-правил и мест размещения компонентов. В финальной части мы протестируем эту конфигурацию и изучим, что происходит, когда весь дата-центр выходит из строя.

https://habr.com/ru/companies/runity/articles/929514/

#облако #облачные_технологии #ceph #кластеризация #датацентр #деградация_софта #сбой_в_работе #пиринг #пулы #восстановление

Неизвестный библейский алгоритм кластеризации

Времена, когда горящий куст мог принести озарение, давно прошли. Примитивный опыт уже не может стать источником открытий. А всё потому, что он обобщён и впитан в культуру человечества. И чтобы подключиться к мудрости предков нужно опереться на философию. В этой статье мы познакомимся с новым алгоритмом кластеризации и поверхностно затронем некоторые философские категории. Перевернём объективность в субъектность и обратно.

https://habr.com/ru/articles/890050/

#кластеризация #философия #data_science #data_analysis

[Перевод] Человеческий мозг против ML-модели: сходства и различия между психикой и машинным обучением

Адаптировали статью Marina Tosic, в которой автор выясняет, в чём сходства и различия между устройством человеческого мозга и моделей машинного обучения. Разобраться в теме нам помогли: кандидат технических наук Василий Борисов и архитектор ML-решений в РБК Кирилл Думнов.

https://habr.com/ru/companies/netologyru/articles/888212/

#ИИ #человеческий_разум #мозгкомпьютер #mlмодель #обучение_моделей #машинное_обучение #agi #инженерия #алгоритмы_машинного_обучения #кластеризация

Почему многокластерные решения становятся стандартом, и как в этом замешаны IT-гиганты

Помните времена, когда веб-сервис работал на одном сервере под столом сисадмина? Никаких кластеров, балансировщиков и геораспределения — только железо, провод и простая логика. А сегодня нужны тысячи серверов, разбросанных по континентам, чтобы привычные сервисы поглощали терабайты данных, выдерживали

https://habr.com/ru/companies/selectel/articles/877436/

#selectel #k8s #kubermetes #кластеризация #микросервисы

Как мы устанавливали community-чарт Sentry в Kubernetes

В статье делимся опытом внедрения community-чарта Sentry в Kubernetes-кластере. Мы рассказываем о том, почему было принято решение использовать именно этот чарт и какие сложности возникли в процессе установки. Вы узнаете об изменениях, которые пришлось внести для повышения отказоустойчивости и производительности Sentry. А ещё мы делимся опытом использования инструмента werf для деплоя чартов и хранения секретных значений.

https://habr.com/ru/companies/flant/articles/879564/

#Sentry #kubernetes #k8s #community_chart #werf #деплой #хранение_секретов #кластеризация #helm

Машинное обучение: Кластеризация методом K-means. Теория и реализация. С нуля

Здравствуйте, дорогие читатели. В этой статье я приведу разбор того, как работает метод кластеризации К-средних на низком уровне. Содержание: идея метода, как присваивать метки неразмеченным объектам, реализация на чистом Python и разбор кода.

https://habr.com/ru/articles/868542/

#кластеризация #kmeans #kсредних #машинное_обучение

Доступность IT-систем: поругаться или договориться?

Всем привет, меня зовут Александр Москвин, я начальник управления эксплуатации X5 Облака в X5 Tech. У меня несколько зон ответственности, но важнейшая из них – это обеспечение доступности облачной инфраструктуры Х5. Конечно, для того, чтобы управлять доступностью, необходимо оцифровать этот показатель. Статья родилась из жарких дебатов по целевым показателям доступности частного облака X5 и серии больших внутренних митапов, посвящённых этой теме. Кажется, что результатами стоит поделиться с сообществом, т. к. накопилась критическая масса материалов и выводов. Мысли будут полезны менеджерам, принимающим решения, и solution-архитекторам для переговоров с заказчиками, лидам команд инфраструктуры и разработки. К сожалению, получился лонгрид, так как охватить все аспекты данной темы короткой статьёй не выйдет.

https://habr.com/ru/companies/X5Tech/articles/839626/

#high_availability #высокая_доступность #надежность #sre #стабильность_системы #облачная_инфраструктура #кластеризация #непрерывность_бизнеса #критически_важные_системы #отказоустойчивость

Кластеризация PostgreSQL за день или за 15 минут: разбираем варианты и подводные камни реализации

Кластеризация необходима для большинства СУБД уровня Enterprise. Есть много способов создать или развернуть кластер: от бесплатных до дорогих, от простых до сложных. У разных вендоров свои приоритеты: одни делают настройку кластера в пару кликов (как в MS SQL), другие фокусируются на надежности и функциональности (Oracle). В мире СУБД на базе PostgreSQL на сторону которых всё активнее переходит российский IT, тоже есть свои кластерные инструменты и решения: как бесплатные и открытые Patroni, Stolon, pacemaker/corosync, так и проприетарные. Лидер по популярности среди открытых решений – Patroni. Сегодня я расскажу, почему настраивать кластеризацию на нем руками весело только первые пару раз. Поговорим об особенностях поддержки Patroni в Proxima DB, снижении порога входа для новичков и повторяемости конфигураций.

https://habr.com/ru/companies/orion_soft/articles/838566/

#postgresql #субд #кластеризация #patroni #proximadb #кластер_postgresql #кластеризация_данных

Репликация: создание кластера, подключение, изменения настроек таблицы в кластере

Привет, я Майк. Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками. Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:

https://habr.com/ru/articles/834980/

#open_source #репликация_баз_данных #кластеризация #docker #sql #manticore #galera #полнотекстовый_поиск #data_replication

Метрики оценки качества моделей и анализ ошибок в машинном обучении

Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений. Поэтому на сегодняшний день существует большое количество метрик, подходящих для самых разных задач и ситуаций. В данном туториале будут рассмотрены популярные метрики для задач классификации, регрессии и кластеризации, а также инструмент для анализа ошибки модели, известный как bias-variance decomposition. Помимо этого, для большей части метрик будут представлены ручные расчёты и реализация с нуля на Python, а в конце вы сможете найти дополнительные источники для более глубокого ознакомления.

https://habr.com/ru/articles/821547/

#python #машинное_обучение #глубокое_обучение #метрики_классификации #метрики_регрессии #кластеризация #biasvariance_tradeoff #mse #rocauc #ari

Почти всё о Carbonio Mesh

Carbonio Mesh - это инфраструктурный модуль почтового сервера Carbonio, позволяющий обеспечить связность, отказоустойчивость и возможность мониторинга различных сервисов Carbonio и интеграцию их с Carbonio LDAP. В данной статье мы расскажем о том, из чего состоит система Carbonio Mesh, а также о том, как обеспечить эффективное взаимодействие с ней.

https://habr.com/ru/companies/Zextras/articles/821397/

#carbonio #carbonio_ce #zextras #электронная_почта #кластер #кластеризация #кластеры #consul

Сравниваем DBSCAN и OPTICS

Привет, хаброчеловек) В этой статье рассмотрим алгоритмы кластеризации DBSCAN и OPTICS, посмотрим их особенности, обсудим, когда что лучше применять Welcome под кат

https://habr.com/ru/articles/818889/

#кластеризация #DBSCAN #OPTICS #R #Julia #Python

#%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F

Client Info