#computer_vision

2026-02-05

MADrive: новый метод генерации сенсорных данных для автономного транспорта

Привет, Хабр! Меня зовут Виктор Юрченко, я руковожу командой симуляции сенсоров в автономном транспорте Яндекса. Основная задача, которая стоит перед нашей командой, — искать способы делать симуляции ближе к реальности в части сенсорных данных. И недавно сотрудники команды совместно с исследовательским отделом Яндекса разработали собственный метод для симуляции изображений в проездах — MADrive (Memory-Augmented Driving Scene Modeling). MADrive позволяет достоверно генерировать синтетические изображения для новых дорожных сценариев. Кроме того, для его работы был собран и выложен в опенсорс крупнейший открытый датасет автомобилей — MAD‑Cars. Он может быть полезен для различных задач 3DCV: от 3D‑реконструкции до генерации синтетических сцен. В этой статье расскажу, почему симуляции так важны для автономного транспорта, как работает MADrive и чем может быть полезен датасет MAD‑Cars.

habr.com/ru/companies/yandex/a

#selfdriving #gaussian_splatting #simulation #computer_vision #опенсорс_яндекса #ml #симуляции_и_моделирование #cv

2026-01-28

69 часов экспериментов с YOLO. Что на самом деле влияет на качество модели

Существуют множество готовых решений, позволяющих запускать модели «из коробки», и YOLO не исключение. Встроенные механизмы автоматически подбирают параметры обучения модели, что удобно для быстрых экспериментов и прототипов. Но инженерный интерес рано или поздно берёт своё. Хочется попробовать разные версии, разобраться в тонкостях работы модели и понять, почему модель ведёт себя именно так, а не иначе. С одной стороны, кажется, зачем что-то менять, если уже есть «оптимальное решение»? А с другой исследовательский азарт: «А что, если попробовать так?» или «Почему это работает именно так?». На практике выясняется, что подбор гиперпараметров задача не такая уж простая. Важно учитывать версии библиотек, совместимость кода и особенности расчёта метрик, которые могут отличаться от релиза к релизу. В статье я делюсь собственным опытом экспериментов с разными версиями YOLO на личном датасете.

habr.com/ru/articles/983246/

#yolo #dataset #обучение_моделей #computer_vision #pcb #machine_learning #машинное_обучение #учусь_программировать #cv #ultralytics

AA (@measure_plan)

배구 관련 머신러닝 모델을 애니메이션 스타일과 비교하는 실험을 공유하면서 동일한 워크플로를 Roboflow Rapid와 SAM3로 구현했다고 밝힘. 컴퓨터비전·세분화 도구를 활용한 실제 워크플로 예시로, 세부 내용은 인용 트윗(QT)에 제공된다고 안내함.

x.com/measure_plan/status/2014

#roboflow #sam #computer_vision #segmentation #ml

2026-01-22

Передача JPEG-видео по RTP/UDP на ESP32 (RFC 2435)

В этой статье я разберу, как реализовать передачу JPEG-видео по RTP поверх UDP напрямую с ESP32 - так, чтобы поток открывался в VLC и ffplay, без RTSP, FFmpeg и промежуточных серверов.

habr.com/ru/articles/987604/?u

#esp32 #esp32s3 #embedded #c #rtp #udp #video #jpeg #computer_vision

2026-01-21

Передача JPEG-видео по RTP/UDP на ESP32 (RFC 2435)

В этой статье я разберу, как реализовать передачу JPEG-видео по RTP поверх UDP напрямую с ESP32 - так, чтобы поток открывался в VLC и ffplay, без RTSP, FFmpeg и промежуточных серверов.

habr.com/ru/articles/987604/

#esp32 #esp32s3 #embedded #c #rtp #udp #video #jpeg #computer_vision

2026-01-18

New article on my website: Focus measurement in digital photography

#programming #photography #computer_vision

baillehachepascal.dev/2026/foc

2025-12-28

Как мы построили систему видеоаналитики на open source и довели её до продакшена

Всем привет, я Иван, продакт-менеджер. В этой статье разберу практический опыт построения системы видеоаналитики на базе open source-инструментов: от выбора библиотек и архитектуры до проблем с производительностью и масштабированием под десятки видеопотоков. Материал будет полезен инженерам, тимлидам и продакт-менеджерам и всем тем, кто рассматривает open source как основу для production-ready CV-систем.

habr.com/ru/articles/981268/

#видеоаналитика #computer_vision #YOLO #PyTorch #MLOps #cv #opensource

2025-12-22

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи.

habr.com/ru/companies/skbkontu

#ии #датасет #дипфейк #видео #сезон_ии_в_разработке #computer_vision #machine_learning

2025-12-04

Logos AI Assistant — полноценный ИИ-агент для вашего десктопа

Logos AI Assistant — это не просто инструмент для автоматизации, это ваш творческий и исполнительный партнёр для решения широкого круга задач прямо на рабочем столе. Он обладает всеми возможностями продвинутых ИИ-ассистентов, таких как Gemini CLI: может писать код, создавать и редактировать тексты, работать с файлами и выполнять сложные команды в терминале. Но Logos идёт гораздо дальше. Его ключевое преимущество — это выход за пределы командной строки. Благодаря движку компьютерного зрения OmniParser, ассистент получает «глаза», а через управление мышью и клавиатурой — «руки». Это фундаментально расширяет перечень решаемых задач. Теперь LLM не ограничена файловой системой и терминалом; она может работать внутри любого графического приложения на вашем компьютере.

habr.com/ru/articles/973332/

#Logos_AI_Assistant #ai_agent #automatization #llm #computer_vision #omniparse #pyside6 #crossplatform #terminal #gui

2025-12-04

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

habr.com/ru/companies/otus/art

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

2025-12-01

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один “хороший и легкий”, но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

habr.com/ru/companies/tevian/a

#liveness_detection #computer_vision #обучение_нейросетей #ии #иимодель

2025-12-01

Сравнительный анализ 18 LLM моделей: конец монополии?

🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025? Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов. Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude. MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.

habr.com/ru/articles/971864/

#llm #языковые_модели #nlp #сравнение_llm #data_science #ai #python #opensource #computer_vision #обзор

2025-11-20

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

habr.com/ru/articles/968626/

#yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

2025-11-18

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль. До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias) . Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка. Но Google DeepMind, похоже, нашли лекарство. На днях в Nature вышла их статья, которая меняет правила игры. Они представили метод, заставляющий модели «думать» о картинках так же, как это делаем мы. Я закопался в их пейпер, покрутил демки и примеры, и теперь готов рассказать, почему это не просто очередное «улучшение на 2%», а реальный шаг к AGI.

habr.com/ru/articles/967458/

#deepmind #computer_vision #agi #нейросети

2025-11-13

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

habr.com/ru/articles/965706/?u

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

2025-11-13

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

habr.com/ru/articles/965706/

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

2025-11-05

Оптика в техническом зрении. Лекция 3: Диафрагмы и виньетирование

Привет, Хабр! Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице. Это третья статья из курса основ прикладной оптики, созданного несколько лет назад для внутреннего обучения CV-разработчиков организации, где я работаю. В этой статье мы поговорим о диафрагмах: что они из себя представляют, какие бывают и как влияют на изображение. Также разберёмся, откуда берётся виньетирование и как с ним бороться. Тема при кажущейся простоте весьма сложна — даже в оптической литературе нет единой последовательности её изложения. При подготовке статьи самым сложным оказалось выбрать, какой необходимый минимум рассказывать (а что опустить) и как выстроить текст так, чтобы он легко читался и воспринимался. Думаю, и фотографы, и специалисты по компьютерному зрению найдут здесь для себя что-то новое. Если что-то останется непонятным — прошу в комментарии. Статья сочетает как упрощённые идеи из теории оптических систем, так и мой личный опыт, накопленный при работе с системами технического зрения.

habr.com/ru/articles/962202/

#оптика #optics #computer_vision #диафрагма #виньетирование

2025-10-13

Что я вынес из Oxford Machine Learning Summer School 2025

Побывал на Oxford Machine Learning Summer School 2025 — одной из крупнейших летних школ, посвящённых искусственному интеллекту, проходившей в самом центре Оксфорда. В течение четырёх дней мы слушали лекции исследователей из DeepMind, Hugging Face, Amazon, Google, ученых топовых европейских вузов. Обсуждали foundation models, reinforcement learning, generative AI и on-device ML. В статье делюсь своими впечатлениями и кратким пересказом программы, отражающей мировые тренды в развитии современного машинного обучения.

habr.com/ru/articles/956138/

#машинное_обучение #llm #computer_vision #multimodal_llm #generative_ai #reinforcementlearning #edge_ai #diffusion_models #образование_в_it #oxford

2025-09-26

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

habr.com/ru/articles/951016/

#машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

2025-09-11

Топ-12 сервисов с нейросетями на русском в 2025: Бесплатный чат GPT и аналоги с нюансами

На Хабре уже немало публикаций о больших моделях, но они часто крутятся вокруг всем известных брендов. В рабочей практике хочется не только «вау-эффекта», но и конкретных инструментов: чтобы быстро написать технический текст, собрать иллюстрации к статье, подготовить видео-тизер или разжевать алгоритм. Поэтому в подборке — сочетание Telegram-ботов и веб-сервисов с упором на русскоязычные сценарии, удобный старт и адекватные лимиты.

habr.com/ru/articles/945858/

#чат_gpt_на_русском #чат_gpt_в_россии #computer_vision #machine_learning #нейросеть_для_генерации_текста

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst