#vlm

2026-02-24

Manchester Monday 5 23rd February 2026.

OO-VLF, Fokker F50, VLM, flying past the Runway Visitor Park shortly after taking off from Runway 23 Right at Manchester Airport, 24th August 2015.

#Manchester #MAN #EGCC #Runway23Right #RunwayVisitorPark #Fokker #F50 #VLM #ManchesterMonday
#AvGeek #aviation #planespotting #photography

Side view of a high-winged, twin propellor-engined airliner flying from left to right and slightly away from the camera at a low altitude, with the undercarriage retracted, flaps extended from the rear of the wings, and the nose raised, suggesting it has just taken off.
The plane is almost entirely white, with the black registration "OO-VLF" on the side of the rear fuselage, and diagonal large blue text "VLM" on the tail, with  golden wing feathers behind it.                                                                                                                                                                                                                                                                             
The engine pods under the wing have blue "FlyVLM.com" text on the sides.
Fluffs of white cloud with patches of pale blue fill the background.
2026-02-23

yzma 1.10 is out with improvements like:
- install info for @officialarduino.bsky.social UNO Q and @raspberrypi.com
- experimental 'VLM' type
- improved yzma cmd so 'go install' works with latest

Go and get it!

github.com/hybridgroup/yzma

2026-02-19

"Running local LLMs and VLMs on the Arduino UNO Q with yzma"

@golang running on the @arduino #unoq can be your new tiny edge inference device!

projecthub.arduino.cc/marc-edg

#golang #yzma #llama #llamacpp #llm #vlm #arduino #ml

Hasan Toor (@hasantoxr)

알리바바가 자사 플래그십 모델 Qwen의 신버전 Qwen3.5를 공개했습니다. Qwen3.5는 네이티브 멀티모달(natively multimodal) 오픈-웨이트 VLM으로 GUI 상호작용, 비디오 이해, 에이전트형 워크플로우에서 성능과 효율성을 재정의하도록 설계되었으며 차세대 애플리케이션을 겨냥한 오픈 소스/오픈 가중치 모델로 주목됩니다.

x.com/hasantoxr/status/2024083

#alibaba #qwen #vlm #multimodal #openweight

Prince Canuma (@Prince_Canuma)

MLX-VLM 프로젝트에 이미 반영되었다는 알림과 함께, 메인 브랜치에서 롱 컨텍스트 관련 수정이 푸시되었으니 pull 하라는 공지. 긴 컨텍스트 처리 문제의 수정 배포 관련 업데이트임.

x.com/Prince_Canuma/status/202

#mlxvlm #vlm #longcontext #opensource #model

2026-02-13

Updated "Captions With Attitude" to use the new yzma release, and now it runs without CGo just using the webcam and browser + pure Go server.

Have a fun weekend!

github.com/hybridgroup/caption

#golang #llama #vlm #yzma

🅱🅸🅶🅾🆁🆁🅴.🅾🆁🅶bigorre_org
2026-02-10

Aviation weather for Teniente Coronel Rafael Pabón airport in Villamontes area (Bolivia) is “SLVM 101600Z 00000KT 9999 NSC 37/20 Q1008” : See what it means on bigorre.org/aero/meteo/slvm/en vl

2026-02-06

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты. Сегодня мы готовы поделиться сводными итогами.

habr.com/ru/companies/contenta

#IDP #llmмодели #vlm #ocrтехнологии #ocr

2026-02-06

VLM / VLA / World Models / Physical AI

Нейроночки в последнее время заполонили всё. Ну, почти всё. Cейчас подбираются к роботам. Настоящего прогресса почти так же много как нейрослопа, пиара и преувеличений. В этой статье попробую рассказать про нейроночки для управления роботами: 🤖 Расскажу немного про теорию 🤖 Покажу как обучить всё это дома на коленке (и стать экспертом в Physical AI конечно)

habr.com/ru/companies/recognit

#VLM #LLM #VLA #World_models

The Hybrid Grouphybridgroup
2026-02-05

yzma 1.7 is out! With support for the very latest llama.cpp features and models, hardware acceleration, and all from Go without needing CGo.

You should go get it right now!

github.com/hybridgroup/yzma

Prince Canuma (@Prince_Canuma)

mlx-vlm v0.3.11이 공개되었습니다. 새 모델로 GLM-OCR(@Zai_org) 지원이 추가되었고, Qwen2-VL 어텐션 마스크 수정, SmolVLM의 dynamic n_kv_heads, PaddleOCR 프로세서 수정 등 여러 결함 픽스와 모델 로드 실패 시 향상된 에러 로깅이 포함되어 있습니다. 또한 새 기여자(@hturbe, @mikolaj92)를 환영합니다.

x.com/Prince_Canuma/status/201

#mlxvlm #vlm #ocr #opensource #qwen

[한국어 능력을 평가하는 VLM 벤치마크 3가지 공개 (KO-VQA, KO-VDC, KO-OCRAG)

한국어 능력을 평가하는 VLM 벤치마크 3가지(KO-VQA, KO-VDC, KO-OCRAG)가 공개되었으며, closed-source VLM인 Gemini가 압도적인 성능을 보였습니다. 오픈소스 VLM 중 Qwen3가 우수한 성능을 보였으며, NCSoft의 VARCO-VISION-2.0 모델도 나쁘지 않은 성능을 보여주었습니다.

news.hada.io/topic?id=26343

#vlm #benchmark #korean #ai #nlp

Prince Canuma (@Prince_Canuma)

mlx-vlm v0.3.10 대규모 업데이트 출시. 이번 버전은 역대 최대 규모로 LFM2.5-VL(@liquidai), DeepSeek OCR 2(@deepseek_ai), Qwen3-Omni(@Alibaba_Qwen), Molmo2(@allen_ai), Jina VLM(@JinaAI_), HunyuanOCR(@TencentHunyuan), PaddleOCR-VL(@PaddlePaddle) 등 다수의 신규 모델을 추가해 멀티모달·OCR·비전-언어 모델 생태계를 확장했습니다.

x.com/Prince_Canuma/status/201

#mlxvlm #multimodal #vlm #ocr #openmodels

2026-01-28

merve (@mervenoyann)

O'Reilly EA(얼리 액세스)에 Vision Language Models 책의 두 장을 배포했다는 공지: 'Post-training VLMs' 장은 파인튜닝, DPO, GRPO, LoRA 등과 GPU 자원 적은 환경에 적합한 기법을 다루고, 'Deploying Models' 장은 추론 엔진, 양자화 등 배포/추론 관련 실무 내용을 다룬다고 소개.

x.com/mervenoyann/status/20161

#visionlanguage #vlm #finetuning #lora #oreilly

2026-01-23

Cảnh báo: Các mô hình VLM OCR gặp hiện tượng hallucination, chèn thông tin không có trong tài liệu – người, xe, vòng lặp – dù nhiệt độ đã 0. Người dùng thử gemma3‑27b‑it‑AWQ và allenai/olmOCR‑2‑7B‑1025‑FP8, kết quả chưa ổn, cần cải thiện để tránh fan‑fiction trong báo cáo. #AI #VLM #OCR #Hallucination #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-23

Bộ dữ liệu Hugging Face mới (17-23/1/2026): LightOnOCR-mix-0126 cho OCR hiệu suất cao, lunara-aesthetic đánh giá hình ảnh thẩm mỹ, ChartVerse-SFT cho nhận diện biểu đồ, pubmed-ocr cho tài liệu khoa học. OmniScience: dữ liệu đa phương thức từ báo khoa học; 10Kh-RealOmin-OpenData cho robot học; PhysicalAI cho xe tự hành. RubricHub_v1 đánh giá LLM, LongPage tóm tắt văn bản dài. FOMO300K: 318k ảnh MRI não. #HuggingFace #Dataset #AI #MachineLearning #OCR #Robotics #MedicalAI #VLM #Vietnamese

https:/

StepFun (@StepFun_ai)

오픈소스 SOTA 비전-언어 모델 STEP3-VL-10B를 소개하는 발표. 파라미터 수는 10B로 비교적 작지만 100B/200B급 모델들과 동등하거나 더 나은 효율을 보이며, STEM 및 멀티모달 평가에서 GLM-4.6V를 능가한다고 주장합니다. 경량 고성능 VLM 공개 소식입니다.

x.com/StepFun_ai/status/201367

#step3vl10b #visionlanguage #opensource #vlm

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst