#VisionLanguage

merve (@mervenoyann)

OpenEnv를 비전-언어 모델(VLM)으로 확장하는 실험 기록. 이미지를 그리드로 렌더링해 base64 관측으로 전달하는 스네이크(snake) 환경을 만들어 VLM이 이미지 관측을 처리하도록 했고, 소규모(3 에피소드) 리플레이를 시연했다는 개발 노트.

x.com/mervenoyann/status/20208

#openenv #visionlanguage #rl #simulation

AI Daily Postaidailypost
2026-02-08

New benchmark reveals that top multimodal models still stumble below 50% accuracy on basic visual entity tasks. The gap highlights limits in current vision‑language training and raises questions about real‑world reliability. Dive into the findings and what they mean for future AI research.

🔗 aidailypost.com/news/top-multi

LMSYS Org (@lmsysorg)

DeepSeek-OCR 2가 Visual Causal Flow를 도입하고 SGLang으로 실행 가능해졌습니다. DeepEncoder V2를 활용해 기존의 좌상→우하 고정 스캔 대신 이미지 내용 기반으로 시각 토큰 순서를 재정렬하고 단계별(스텝별) 비주얼 처리를 수행하여 OCR 및 비전-언어 처리의 유연성과 정확도 향상이 기대됩니다.

x.com/lmsysorg/status/20173058

#deepseek #ocr #visionlanguage #sglang

Kimon Fountoulakis (@kfountou)

SOTA LVLM 모델들의 오픈월드 물체 개수 세기를 평가한 방대한 연구(약 40페이지 분량의 실험)가 TMLR에 수락되었다는 내용으로, 대규모 실험을 통해 LVLM의 물체 계수 성능을 체계적으로 검증했다는 소식입니다.

x.com/kfountou/status/20172946

#lvml #visionlanguage #objectcounting #tmlr #research

Fernando Pérez-García (@fepegar_)

Microsoft Research의 COLIPRI(흉부 CT 스캔을 위한 3D 비전-언어 인코더) 가 Hugging Face에 가중치(weights)를 공개했다는 발표입니다. 모델·데모·논문 링크를 함께 제공하며 의료 영상 분야의 멀티모달 모델 연구와 임상 적용 가능성에 중요한 진전입니다.

x.com/fepegar_/status/20172586

#colipri #medicalai #visionlanguage #huggingface #msftresearch

Fernando Pérez-García (@fepegar_)

Microsoft Research의 COLIPRI(흉부 CT용 3D 비전-언어 인코더) 가중치(weights)를 Hugging Face에 공개했다고 발표. 모델·데모·논문 링크를 함께 제공하며, 의료영상 분야의 비전-언어 연구와 임상용 AI 개발에 중요한 오픈 가중치 공개다.

x.com/fepegar_/status/20172586

#microsoftresearch #colipri #huggingface #medicalimaging #visionlanguage

Kimi.ai (@Kimi_Moonshot)

Kimi K2.5 기술보고서 공개: 텍스트·비전 공동 사전학습(15T 비전-텍스트 토큰)과 '제로-비전 SFT'(텍스트 전용으로 시각 추론 활성화)를 도입했고, Agent Swarm + PARL로 동적 병렬 서브에이전트 오케스트레이션을 구현해 지연을 최대 4.5배 줄였으며 주요 벤치마크에서 78.4% 성과를 보고하는 등 멀티모달·에이전트 아키텍처 관련 핵심 업데이트를 담고 있습니다.

x.com/Kimi_Moonshot/status/201

#kimi #multimodal #agentswarm #parl #visionlanguage

AI Daily Postaidailypost
2026-01-28

New research reveals fresh ways to fool vision‑language models like CLIP, exposing gaps in image classification and neural‑network defenses. The study updates adversarial‑attack techniques and highlights AI security challenges for multimodal AI. Open‑source communities can help harden these systems—read the full findings now.

🔗 aidailypost.com/news/researche

merve (@mervenoyann)

O'Reilly EA(얼리 액세스)에 Vision Language Models 책의 두 장을 배포했다는 공지: 'Post-training VLMs' 장은 파인튜닝, DPO, GRPO, LoRA 등과 GPU 자원 적은 환경에 적합한 기법을 다루고, 'Deploying Models' 장은 추론 엔진, 양자화 등 배포/추론 관련 실무 내용을 다룬다고 소개.

x.com/mervenoyann/status/20161

#visionlanguage #vlm #finetuning #lora #oreilly

Microsoft Research (@MSFTResearch)

UniRG라는 접근법이 의료 영상-언어 모델의 성능을 향상시키기 위해 강화학습을 활용한 연구를 소개합니다. 현재 보고서 형식이 다양해 모델 성능이 떨어지는 문제를 해결하려고 하며, 의료 영상 판독 리포트 자동 생성에 적용되는 비전-언어 모델의 실무 성능 개선에 초점을 둡니다. 관련 자세한 내용은 링크(마이크로소프트 블로그)에서 확인할 수 있습니다.

x.com/MSFTResearch/status/2016

#medicalimaging #visionlanguage #reinforcementlearning #unirg

StepFun (@StepFun_ai)

오픈소스 SOTA 비전-언어 모델 STEP3-VL-10B를 소개하는 발표. 파라미터 수는 10B로 비교적 작지만 100B/200B급 모델들과 동등하거나 더 나은 효율을 보이며, STEM 및 멀티모달 평가에서 GLM-4.6V를 능가한다고 주장합니다. 경량 고성능 VLM 공개 소식입니다.

x.com/StepFun_ai/status/201367

#step3vl10b #visionlanguage #opensource #vlm

Aradhye Agarwal (@AradhyeAgarwal)

CMU 박사과정생 Ayush Jain이 Microsoft Research India에서 발표한 강연 소개 트윗입니다. 주제는 '2D-3D VLMs 통합을 통한 장기(장기간) 임베디드 인식(embodied perception)'으로, 그의 연구와 지도교수 Katerina Fragiad의 연관성 및 MSR 방문 소식이 언급되어 있습니다.

x.com/AradhyeAgarwal/status/20

#vlm #visionlanguage #embodiedai #research

StepFun (@StepFun_ai)

Step3-VL-10B가 HuggingFace의 Daily Papers에 선정되었다는 공지입니다. 논문(huggingface.co/papers/2601.096)으로 연결되며, 모델명으로 미루어 보아 비전-언어 멀티모달 10B급 모델 관련 연구로 보입니다.

x.com/StepFun_ai/status/201210

#visionlanguage #multimodal #huggingface #research

2026-01-14

Zai Org vừa ra mắt GLM-Image, mô hình đa phương tiện kết hợp ngôn ngữ và hình ảnh, hỗ trợ VQA, hiểu ảnh và lý luận đa mô hình. Mã nguồn và trọng số mở trên Hugging Face, là bước tiến trong cộng đồng GLM đa phương tiện. So sánh với Qwen‑VL, InternVL, LLaVA. #AI #Multimodal #VisionLanguage #OpenSource #CôngNghệ #Vietnam

reddit.com/r/LocalLLaMA/commen

金のニワトリ (@gosrum)

Qwen3-VL-Embedding-8B를 바로 시도해본 기록으로, 다양한 활용 가능성을 기대하고 있다는 내용입니다. 참고로 첫 번째 문자열은 3번째 이미지에 대해 Qwen3-VL-30B-A3B-Instruct로 설명받은 결과이며, 게시물에는 'AIニケちゃん' 해시태그가 사용되어 있습니다.

x.com/gosrum/status/2009293503

#qwen3 #qwen #embedding #multimodal #visionlanguage

2026-01-08

Qwen đã ra mắt bộ sưu tập Qwen3-VL-Reranker. Đây là mô hình Vision-Language giúp nâng cao độ chính xác cho việc tìm kiếm và truy vấn dựa trên cả hình ảnh và văn bản. #AI #Qwen #AIĐaPhươngThức #VisionLanguage #Reranker

reddit.com/r/LocalLLaMA/commen

AI Daily Postaidailypost
2026-01-05

Nvidia's new Cosmos Reason 2 platform lets robots reason across vision‑language inputs, turning on‑board agents into true problem‑solvers for complex tasks—from warehouse sorting to autonomous vehicle navigation. The open‑source‑friendly stack promises faster deployment and richer data use. Curious how this could reshape AI‑driven robotics? Read on.

🔗 aidailypost.com/news/nvidias-c

2025-12-08

"GPT-4V revolutionizes vision-language tasks with human-level accuracy! "

GPT-4V, a multimodal AI model, has achieved human-level performance on vision-language tasks by integrating advanced vision encoders with large language models. The model's novel attention mechanism enables more effective cross-modal understanding, allowing it to reason about images with unprecedented...

-4V -LanguageUnderstanding

2025-12-07

"GPT-4V revolutionizes vision-language tasks with human-level accuracy "

The GPT-4V model has achieved human-level performance on vision-language tasks by integrating advanced vision encoders with large language models, enabling accurate image understanding and reasoning. This breakthrough is attributed to a novel attention mechanism and improved training techniques that facilitate...

-4V -LanguageTasks

2025-12-06

"GPT-4V revolutionizes AI vision with human-level understanding, leveraging novel attention mechanisms "

The GPT-4V model has achieved human-level performance on vision-language tasks by integrating advanced vision encoders with large language models, enabling accurate image understanding and reasoning. A novel attention mechanism is a key innovation in GPT-4V, allowing for improved...

-4V -LanguageModels

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst