#scikitlearn

2026-02-14

Поиск аномалий: статистика или ML? Выбираем лучшее

Поиск аномалий под микроскопом: от базовой статистики до робастных моделей с нуля на NumPy В машинном обучении поиск аномалий (Anomaly Detection) часто остается в тени классического обучения с учителем. Однако именно эта «иммунная система» данных спасает миллионы долларов в финтехе, предотвращает катастрофы на производстве и находит критические ошибки в медицинских картах. В этой статье мы не просто импортируем готовые методы из sklearn. Мы разберем математическую логику трех мощных подходов, напишем их «примитивные» реализации на NumPy/Pandas, чтобы понять механику работы «под капотом», и проверим их в деле на реальном кейсе. Наш полигон: Credit Card Fraud Detection Для тестов мы возьмем классический датасет Credit Card Fraud Detection. Это идеальный пример «иголки в стоге сена»: здесь всего 0.17% мошеннических транзакций среди почти 300 тысяч записей. Смогут ли наши рукотворные алгоритмы их найти? Эволюция методов: от простого к сложному Мы пройдем путь от элементарной статистики до продвинутого геометрического анализа: IQR (Interquartile Range): Статистическая классика. Узнаем, как «усы» боксплота помогают находить грубые выбросы. Isolation Forest: Оригинальный подход, основанный на идее, что аномалию проще всего «изолировать» случайными разрезами пространства. Elliptic Envelope: Тяжелая артиллерия робастной статистики. Будем строить многомерный эллипс, который игнорирует попытки аномалий исказить его форму.

habr.com/ru/articles/996538/

#машинное+обучение #машинное_обучение #machinelearning #isolation_forest #anomaly_detection #поиск_аномалий #scikitlearn #mathematica #algorithms #python

AI Daily Postaidailypost
2026-01-29

Discover 7 practical scikit‑learn tricks that let you weave preprocessing pipelines directly into hyperparameter searches. Save time, avoid data leakage, and boost model reliability—all with clean, reusable code. Perfect for open‑source projects and reproducible research. Dive in to level up your ML workflow!

🔗 aidailypost.com/news/7-scikit-

2026-01-07

🚀 Mới! Thư viện mã nguồn mở **sklearn‑diagnose** giúp “MRI” mô hình Scikit‑learn bằng LLM. Tự động phát hiện over/under‑fitting, variance cao, mất cân bằng lớp, dư thừa tính năng, nhiễu nhãn, rò rỉ dữ liệu, kèm điểm tin cậy, mức độ nghiêm trọng và đề xuất khắc phục. Cài pip install sklearn‑diagnose, hỗ trợ OpenAI, Anthropic, OpenRouter. #MachineLearning #AI #ScikitLearn #Python #OpenSource #HọcMáy #AI #MãNguồnMở

reddit.com/r/LocalLLaMA/commen

2025-12-22

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

С помощью предобученной мультиязычной модели LaBSE и методов снижения размерности выяснил, что поэмы Лермонтова и Симонова, несмотря на столетнюю дистанцию, семантически близки. Подтвердил гипотезу, что русская патриотическая поэзия сохраняет устойчивое смысловое ядро, даже когда меняется стиль и идеология.

habr.com/ru/articles/979488/

#python #transformers #nlp #nltk #scikitlearn #нейросети #huggingface #torch #литература #поэзия

Alessandro Molina_amol_@fosstodon.org
2025-12-19

Curious how much performance you can squeeze out of decision-tree models when generating pure SQL?

With Orbital 0.3 we redesigned how tree-based models compile to SQL, cutting query size by ~7x and getting up to 300% speedups in real workloads.

If you ever hit limits with ML inference in databases, this blog post digs into what changed and why it matters.

👉 posit.co/blog/orbital-0-3-0/

#Python #DataEngineering #MachineLearning #SQL #ScikitLearn #opensource

Le site de Korbenkorben.info@web.brid.gy
2025-12-05

12 semaines de formation Machine Learning gratos sur GitHub (et en français svp !)

fed.brid.gy/r/https://korben.i

<p>Vous vous souvenez quand je vous avais parlé de
<a href="https://korben.info/microsoft-lance-formation-gratuite-10h-maitriser.html">la formation gratuite de Microsoft sur GitHub Copilot</a>
? Hé bien ils remettent le couvert, mais cette fois c&rsquo;est pour nous apprendre la science du Machine Learning from scratch ! Et c&rsquo;est pas un petit tuto de 2h fait à l&rsquo;arrache comme sur ma chaine Youtube&hellip; Non, c&rsquo;est un bon gros programme complet en 12 semaines avec 26 leçons et tout ça dans la langue Gims.</p>
<p>Le repo s&rsquo;appelle <strong>
<a href="https://github.com/microsoft/ML-For-Beginners">ML-For-Beginners</a>
</strong> et le truc cool c&rsquo;est que Microsoft a choisi de se concentrer sur le Machine Learning &ldquo;classique&rdquo; avec Scikit-learn et pas du deep learning de richou qui demande des GPU à 3000 balles. Du coup c&rsquo;est accessible à n&rsquo;importe qui avec un laptop normal !</p>
<p>Leur programme couvre à peu près tout ce qu&rsquo;il faut savoir pour débuter : Régression, classification, clustering, traitement du langage naturel, séries temporelles, et même un peu d&rsquo;apprentissage par renforcement. Chaque leçon démarre par un quiz pour voir où vous en êtes, suivi de contenu avec des explications pas à pas, des challenges à faire, et un autre quiz de fin pour vérifier que vous avez bien tout capté.</p>
<p>Y&rsquo;a même des &ldquo;sketchnotes&rdquo; (c&rsquo;est à dire des résumés visuels) et
<a href="https://www.youtube.co
2025-11-12

We're hiring an open-source #python developer focused on modeling APIs!

tidyverse.org/blog/2025/11/pyt

#numpy #scipy #scikitlearn

AI Daily Postaidailypost
2025-11-07

Ever wondered why dropping rows with NaNs can hurt your model? Our latest open‑source guide walks through a Pandas & Scikit‑learn workflow, showing how to spot missing target vs. predictor attributes, decide when to drop or impute, and keep your DataFrame clean for reliable machine‑learning results. Dive in to master the trade‑offs!

🔗 aidailypost.com/news/first-pan

2025-09-25

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

habr.com/ru/companies/kryptoni

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

IB Teguh TMteguhteja
2025-09-17

nlock ML mastery with this Scikit-Learn tutorial! Step-by-step guidance to build & optimize models. Perfect for beginners!

teguhteja.id/scikit-learn-cras

TCCI Computer InstituteTCCI_Ahmedabad
2025-09-01

📢 Want to master AI with Python?

Check out our new short video on the 3 most essential Python libraries used in AI & Machine Learning:

✔️ NumPy – fast numerical computing
✔️ Pandas – clean & manipulate datasets
✔️ Scikit-learn – build real ML models easily

2025-08-08

Titanic + CatBoost (Первое решение, первый Jupyter Notebook)

Решение первого соревнования на kaggle титаник с помощью библиотеки от яндекса catboost. Два способа: обычная модель и второй: с перебором гиперпараметров с помощью randomizedsearch. Сравнение результатов.

habr.com/ru/articles/935540/

#kaggle #titanic #ml #машинноеобучение #machinelearning #scikitlearn #catboost #eda #соревнование #juniorml

2025-07-22

87/97
Circling back to our program details! Our Beginner Tutorial Track is for absolute beginners, covering the fundamentals: intro to #Python, #NumPy, #Pandas, #ScikitLearn, and #DataVisualization.

2025-07-21

Announcing streamlined MLOps with Orbital on Databricks 🛰️🧱

Orbital translates #ScikitLearn #Python or #tidymodels #RStats to native #SQL for direct database model execution.

Edgar Ruiz's post uses #Databricks as an integrated environment.

Learn more: posit.co/blog/databricks-orbit

A graphic illustrating data science and big data technologies. On the left, stacked vertically, are the logos for R and Python. In the center, also stacked vertically, are the Orbital logo (featuring a satellite) and the Scala logo (a blue serpent). On the right, stacked vertically, are the Databricks logo and a generic database cylinder icon. The background is a light blue with a subtle, dark blue dot pattern at the bottom.
Alexandre B A Villares 🐍villares@ciberlandia.pt
2025-07-09

Lazy-fedi-question... I have a "working"(?) code example of TF-IDF #tfidf using #scikitlearn and I know the main concepts, but all the tutorials I find are a bit — I don't want to be harsh but —crappy... Can someone point me to some nice open resource on it?

2025-07-08

⚖️ Tutorial: Predictive Modeling with Imbalanced Datasets Using Scikit-learn📈

At #EuroSciPy2025, join Guillaume Lemaitre and Olivier Grisel for:

You’ll learn:

✅ Why imbalanced data breaks naive models

✅ How to calibrate and resample properly

✅ The performance trade-offs of real-world decision-making

A hands-on tutorial full of practical tools & insights.
📅 euroscipy.org/schedule

#ScikitLearn

2025-07-03

Нейросеть приближается к опыту профессионального дерматолога

Наконец наступило лето, а с ним и пора отпусков. Уезжая на южные моря, не забывайте: большинство из нас имеет типичную для северянина кожу с пониженным содержанием меланина — пигмента, отвечающего за защиту от ультрафиолета. Если кожа отреагировала непонятным новообразованием, вызывающим опасения, теперь можно проконсультироваться с искусственным интеллектом. Он предварительно осмотрит кожу и посоветует, бежать ли ко врачу, за которым, конечно, всегда последнее слово. К слову, данная медицинская ИИ-технология, как и публикация, не является медицинской рекомендацией: диагноз ставит лечащий врач.

habr.com/ru/companies/leader-i

#медицина #красота_и_здоровье #приложения #сверточные_сети #нейросети #поиск_по_изображениям #стартапы #разработка_приложений #scikitlearn #opencv

ksoncan34ksoncan34
2025-06-24

Part 3 of my Supervised Learning series is LIVE!
How do you take a naive model and tune it into something nearly production-ready?
Find out in my latest deep dive with real scikit-learn code & tips:
🔗 agingcoder.com/posts/2025-06-2

2025-06-24

Главное по ML/DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD/PCA. Bias-variance. Деревья. Бустинг

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение. Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять , но так же не лишая полноты! 💻 Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу ! Это самое важное, оно происходит в секции с кодом. Поэтому попробуйте сами решить предложенную задачку и придумать свою! Будет здорово получить ваши задачи и в следующих выпусках разобрать! Мы продолжаем. Обязательно испытайте себя в предыдущей [1] части! В лес, так в лес!

habr.com/ru/articles/921190/

#machinelearning #ds #python #scikitlearn #svd #pca #Biasvariance_tradeoff #random_forest #gradient_boosting #алгоритмы

2025-06-19

[Перевод] Линейная регрессия в ML для самых маленьких

В мире машинного обучения есть много всего интересного, но тем, кто только начинает свой путь в этой области часто бывает многое непонятно. В этой статье мы попробуем разобраться с линейной регрессией. Линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Проще говоря, он помогает понять, как изменение одного или нескольких предикторов (независимых переменных) влияет на результат (зависимую переменную). Подумайте об этом, как о проведении прямой линии через диаграмму рассеяния точек данных, которая наилучшим образом отражает связь между этими точками.

habr.com/ru/companies/otus/art

#ml #linear_regression #линейная_регрессия #обучение_модели #scikitlearn #python #data_science

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst