#AWQ

Clément Pillette (@ClementPillette)

kim-dev 72B를 BF16으로 2 GPU 병렬화하는 시도는 다소 무리였고, 대신 AWQ 4-bit 양자화를 시도한다고 보고합니다. MLX 팀(특히 @ivanfioravanti) 덕분에 Mac Studio에서 모델 구동이 훨씬 수월해졌고, Minimax 2.5는 8비트에서 초당 30tps로 잘 동작하고 있다는 실무적 성과를 공유한 트윗입니다.

x.com/ClementPillette/status/2

#quantization #awq #llm #modeloptimization #bf16

2026-02-01

2026 AI 양자화 결정 가이드, GGUF vs GPTQ vs AWQ 언제 뭘 쓸까

GPTQ vs GGUF vs AWQ, 2026년 AI 양자화 방법 비교와 선택 가이드. Red Hat 50만 평가로 입증된 정확도 유지 전략과 상황별 추천.

aisparkup.com/posts/8713

2025-10-27

**🚨 GPTQ Rơi Bát, AWQ Tăng Vượt! Bây Gì?**
Đăng nhập Hugging Face, chưa WarenEverHeroGPTQ cho Qwen3-VL, chỉ Khi Tìm thấy AWQ. GPTQ vẫn có cho các phiên khác (như Qwen-2.5 VL). Test cá nhân: DL/runמל/global-gun, GPTQ & AWQ chỉ khácLatency, GPTQ Tốt hơn.

#AI #ModelK préparatif #GPTQ #AWQ #TechNews #HọcMáy #Vietnamese

reddit.com/r/LocalLLaMA/commen

2024-11-29

💻 Features #OpenAI compatible #API and intuitive chat interface
🎮 Infrastructure includes up to 8 #NvidiaH100 GPUs (80GB each)
⚡ Handles both full-weight and 4-bit #AWQ repositories from #HuggingFace

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst