#VLM

2026-02-06

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты. Сегодня мы готовы поделиться сводными итогами.

habr.com/ru/companies/contenta

#IDP #llmмодели #vlm #ocrтехнологии #ocr

2026-02-06

VLM / VLA / World Models / Physical AI

Нейроночки в последнее время заполонили всё. Ну, почти всё. Cейчас подбираются к роботам. Настоящего прогресса почти так же много как нейрослопа, пиара и преувеличений. В этой статье попробую рассказать про нейроночки для управления роботами: 🤖 Расскажу немного про теорию 🤖 Покажу как обучить всё это дома на коленке (и стать экспертом в Physical AI конечно)

habr.com/ru/companies/recognit

#VLM #LLM #VLA #World_models

The Hybrid Grouphybridgroup
2026-02-05

yzma 1.7 is out! With support for the very latest llama.cpp features and models, hardware acceleration, and all from Go without needing CGo.

You should go get it right now!

github.com/hybridgroup/yzma

Prince Canuma (@Prince_Canuma)

mlx-vlm v0.3.11이 공개되었습니다. 새 모델로 GLM-OCR(@Zai_org) 지원이 추가되었고, Qwen2-VL 어텐션 마스크 수정, SmolVLM의 dynamic n_kv_heads, PaddleOCR 프로세서 수정 등 여러 결함 픽스와 모델 로드 실패 시 향상된 에러 로깅이 포함되어 있습니다. 또한 새 기여자(@hturbe, @mikolaj92)를 환영합니다.

x.com/Prince_Canuma/status/201

#mlxvlm #vlm #ocr #opensource #qwen

[한국어 능력을 평가하는 VLM 벤치마크 3가지 공개 (KO-VQA, KO-VDC, KO-OCRAG)

한국어 능력을 평가하는 VLM 벤치마크 3가지(KO-VQA, KO-VDC, KO-OCRAG)가 공개되었으며, closed-source VLM인 Gemini가 압도적인 성능을 보였습니다. 오픈소스 VLM 중 Qwen3가 우수한 성능을 보였으며, NCSoft의 VARCO-VISION-2.0 모델도 나쁘지 않은 성능을 보여주었습니다.

news.hada.io/topic?id=26343

#vlm #benchmark #korean #ai #nlp

Prince Canuma (@Prince_Canuma)

mlx-vlm v0.3.10 대규모 업데이트 출시. 이번 버전은 역대 최대 규모로 LFM2.5-VL(@liquidai), DeepSeek OCR 2(@deepseek_ai), Qwen3-Omni(@Alibaba_Qwen), Molmo2(@allen_ai), Jina VLM(@JinaAI_), HunyuanOCR(@TencentHunyuan), PaddleOCR-VL(@PaddlePaddle) 등 다수의 신규 모델을 추가해 멀티모달·OCR·비전-언어 모델 생태계를 확장했습니다.

x.com/Prince_Canuma/status/201

#mlxvlm #multimodal #vlm #ocr #openmodels

2026-01-28

merve (@mervenoyann)

O'Reilly EA(얼리 액세스)에 Vision Language Models 책의 두 장을 배포했다는 공지: 'Post-training VLMs' 장은 파인튜닝, DPO, GRPO, LoRA 등과 GPU 자원 적은 환경에 적합한 기법을 다루고, 'Deploying Models' 장은 추론 엔진, 양자화 등 배포/추론 관련 실무 내용을 다룬다고 소개.

x.com/mervenoyann/status/20161

#visionlanguage #vlm #finetuning #lora #oreilly

2026-01-23

Cảnh báo: Các mô hình VLM OCR gặp hiện tượng hallucination, chèn thông tin không có trong tài liệu – người, xe, vòng lặp – dù nhiệt độ đã 0. Người dùng thử gemma3‑27b‑it‑AWQ và allenai/olmOCR‑2‑7B‑1025‑FP8, kết quả chưa ổn, cần cải thiện để tránh fan‑fiction trong báo cáo. #AI #VLM #OCR #Hallucination #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-23

Bộ dữ liệu Hugging Face mới (17-23/1/2026): LightOnOCR-mix-0126 cho OCR hiệu suất cao, lunara-aesthetic đánh giá hình ảnh thẩm mỹ, ChartVerse-SFT cho nhận diện biểu đồ, pubmed-ocr cho tài liệu khoa học. OmniScience: dữ liệu đa phương thức từ báo khoa học; 10Kh-RealOmin-OpenData cho robot học; PhysicalAI cho xe tự hành. RubricHub_v1 đánh giá LLM, LongPage tóm tắt văn bản dài. FOMO300K: 318k ảnh MRI não. #HuggingFace #Dataset #AI #MachineLearning #OCR #Robotics #MedicalAI #VLM #Vietnamese

https:/

StepFun (@StepFun_ai)

오픈소스 SOTA 비전-언어 모델 STEP3-VL-10B를 소개하는 발표. 파라미터 수는 10B로 비교적 작지만 100B/200B급 모델들과 동등하거나 더 나은 효율을 보이며, STEM 및 멀티모달 평가에서 GLM-4.6V를 능가한다고 주장합니다. 경량 고성능 VLM 공개 소식입니다.

x.com/StepFun_ai/status/201367

#step3vl10b #visionlanguage #opensource #vlm

TechRadar (@techradar)

Raspberry Pi AI HAT+ 2는 40 TOPS 연산 성능, 8GB 메모리, PCIe 연결을 지원해 로컬에서 LLM 및 VLM 워크로드를 실행할 수 있도록 설계된 하드웨어 확장 보드입니다. 엣지 환경에서 대형 언어·비전 모델 구동을 목표로 하는 신제품 소개입니다.

x.com/techradar/status/2013697

#raspberrypi #edgeai #llm #vlm #hardware

Aradhye Agarwal (@AradhyeAgarwal)

CMU 박사과정생 Ayush Jain이 Microsoft Research India에서 발표한 강연 소개 트윗입니다. 주제는 '2D-3D VLMs 통합을 통한 장기(장기간) 임베디드 인식(embodied perception)'으로, 그의 연구와 지도교수 Katerina Fragiad의 연관성 및 MSR 방문 소식이 언급되어 있습니다.

x.com/AradhyeAgarwal/status/20

#vlm #visionlanguage #embodiedai #research

2026-01-14

Đang thử dùng VLM nội bộ (Llama‑4, qwen3‑VL‑30B) để OCR tài liệu quét, nhưng gặp “hallucination” trên ảnh mờ, chữ viết tay và bố cục phức tạp (bảng, đa cột). Mô hình thiên về văn bản in sạch, tiêu tốn GPU lớn và vẫn cho kết quả kém, làm sai lệch phân tích NLP. Giải pháp tiềm năng: tiền xử lý ảnh (tăng độ nét, giảm nhiễu), kết hợp OCR truyền thống trước khi đưa vào VLM, hoặc điều chỉnh siêu tham số/quantization. #AI #OCR #VLM #NLP #MachineLearning #TríTuệNhânTạo #NhậnDạngVănBản #XửLýNgônNgữ #Công

2026-01-14

Các VLM nội bộ (như Llama‑4 scout, qwen3‑VL‑30B) gặp khó khăn nghiêm trọng khi OCR tài liệu quét: ảnh mờ, chữ viết tay và bố cục phức tạp (bảng, cột) thường bị mô hình "ảo tưởng", sai lệch dữ liệu và làm hỏng đầu ra NLP. Người dùng đề xuất cải thiện tiền xử lý ảnh, sharpen, hoặc quay lại OCR truyền thống để tăng độ tin cậy. #AI #VLM #OCR #NLP #MachineLearning #TríTuệNhânTạo #NhậnDạngVănBản #CôngNghệThôngTin

reddit.com/r/LocalLLaMA/commen

Yanjiang Guo (@GYanjiang)

VLA 모델이 급증하는 상황에서 기본 VLM(비전-언어 모델) 선택이 VLA 성능에 어떻게 영향을 주는지를 규명하기 위한 대규모 체계적 연구를 발표합니다. 해당 연구는 Alibaba의 Qwen과 협력해 진행되었으며, VLM 선택에 따른 성능 차이 분석을 통해 멀티모달 에이전트 설계에 중요한 인사이트를 제공합니다.

x.com/GYanjiang/status/2011264

#vla #vlm #multimodal #qwen #research

2026-01-14

Loggr – ứng dụng nhật ký sức khỏe chạy hoàn toàn offline trên Apple Silicon, dùng pipeline NLP tùy chỉnh để trích xuất thực phẩm, tập luyện, ngủ… Gần đây tích hợp OCR bằng VLM (Qwen2.5‑VL‑3B) để đọc nhật ký viết tay. Họ đang tìm beta tester có sổ giấy cũ, đặc biệt là chữ viết khó, đa ngôn ngữ, bố cục lạ. Nếu muốn tham gia thử nghiệm, hãy liên hệ! #AI #VLM #OCR #HealthTech #Loggr #TríTuệNhânTạo #NhậnDạngChữViết #ỨngDụngSứcKhỏe

reddit.com/r/LocalLLaMA/commen

2026-01-12

Будущее дронов: встроенный ИИ

Всё больше БПЛА используют машинное зрение для навигации и распознавания объектов. Обычно предполагается, что это система с ограниченными вычислительными возможностями, которой управляет оператор удалённо, а движок ИИ работает из облачного сервиса с подключением через интернет. Но что, если на БПЛА поставить локальную модель и мощный GPU-ускоритель, чтобы ИИ работал локально и самостоятельно принимал решения? Несколько лет назад такое казалось фантастикой. Но сейчас прогресс в области БПЛА настолько бурный, что ситуация меняется каждые несколько месяцев. Посмотрим, какие ИИ-ускорители устанавливаются в современные дроны.

habr.com/ru/companies/ruvds/ar

#Tiiny_AI #Tiiny_AI_Pocket_Lab #перепрошивка_дронов #распознавание_объектов #TurboSparse #PowerInfer #бортовой_модуль_ИИ #VLM #визуальная_языковая_модель #умный_город

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst