Ivan Fioravanti ᯅ (@ivanfioravanti)
MLX 관련 성능 업데이트: 'MLX Step-3.5-Flash'에서 45 toks/s 달성 보고입니다. @awnihannun의 Fast-MLX 스킬을 Codex와 GPT 5.2 High 조합으로 사용해 속도가 v0의 13 toks/s에서 v2의 45 toks/s로 개선되었다고 하며 @kernelpool도 더 개선할 수 있을 것이라 언급합니다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
MLX 관련 성능 업데이트: 'MLX Step-3.5-Flash'에서 45 toks/s 달성 보고입니다. @awnihannun의 Fast-MLX 스킬을 Codex와 GPT 5.2 High 조합으로 사용해 속도가 v0의 13 toks/s에서 v2의 45 toks/s로 개선되었다고 하며 @kernelpool도 더 개선할 수 있을 것이라 언급합니다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
Apple MLX를 다룰 때 @awnihannun이 만든 스킬을 설치하라는 권장입니다. 예시 설치 명령(u vx --from git+https://github.com/awni/mlx-skills.git …)과 mlx-skills, codex 관련 사용법이 언급되어 있습니다.
Michael (@michaelharrigan)
Exo Labs 팀과 MLX 커뮤니티의 작업을 칭찬하며, 해당 솔루션이 RDMA를 통해 Thunderbolt 5(TB5)에서 문제없이 작동하는 것을 확인했다는 내용의 트윗입니다. RDMA와 TB5 조합으로 네트워크/IO 관련 작업이 원활히 동작함을 알리는 긍정적 기술 확인 메시지입니다.
Awni Hannun (@awnihannun)
MLX를 이용해 로컬 어시스턴트를 구축하는 스레드를 소개합니다. 작성자는 자신을 대상으로 모델을 학습시키고(약 2,000회 반복) 매주 일요일 새벽 3시에 자동 재학습되도록 설정했다고 밝혔습니다. 또한 2,924개의 실제 대화를 수집해 개인화된 의사결정 학습에 사용한 사례를 공유하며 개인 맞춤 로컬 에이전트 구축과 주기적 재학습 워크플로우를 보여줍니다.
Alex Cheema - e/acc (@alexocheema)
데스크에서 Kimi K2.5 모델을 실행한 실험 보고. 2대의 512GB M3 Ultra Mac Studio를 Thunderbolt 5(RDMA)로 연결하고 exolabs/MLX 백엔드를 사용해 초당 약 24 토큰 처리 속도를 기록했으며, 이 환경에서 clawdbot도 구동 가능하다고 언급함. (로컬 고성능 LLM 실행 및 HW·SW 스택 시연)
Scott (@scottstts)
LM Studio에서 mlx 4비트 버전 GLM 4.7 Flash 모델(mlx-community/GLM-4.7-Flash-4bit)을 사용할 때 발생하는 문제에 대한 문의입니다. 작성자는 mlx 런타임이 최신이라고 보고하며 동일한 문제를 겪는 사람이 있는지 @lmstudio와 @awnihannun에 묻고 있습니다.
Tác giả đã xây dựng notebook Jupyter đầy đủ thành phần pretrain LLM từ đầu bằng PyTorch & mlx. Nguồn code & video hướng dẫn có sẵn. Hướng tới phần căn chỉnh, suy luận và multimodality trên MacBook đơn lẻ. #AI #ML #Tech #KhoaHọcMáyTính #HọcMay #LLM #DeepLearning #PyTorch #Mlx
https://www.reddit.com/r/LocalLLaMA/comments/1qnh5rq/train_a_llm_from_scratch_on_macbook_part_1/
Aviation weather for Malatya Erhaç airport (Turkey) is “LTAT 260620Z VRB03KT 2400 BR OVC007 M01/M01 Q1024 NOSIG” : See what it means on https://www.bigorre.org/aero/meteo/ltat/en #malatyaerhacairport #airport #malatya #turkey #ltat #mlx #metar #aviation #aviationweather #avgeek vl
Moondream 3, mô hình thị giác mạnh, đã ra mắt năm ngoái. Gần đây có phiên bản MLX int4 trên HuggingFace, nhưng vẫn chưa có hỗ trợ llama.cpp và chưa thấy hoạt động công khai nào. #AI #Moondream3 #MLX #llama_cpp #MachineLearning #TríTuệNhânTạo #MôHìnhThịGiác
https://www.reddit.com/r/LocalLLaMA/comments/1qmh3si/what_happened_to_moondream3/
Ivan Fioravanti ᯅ (@ivanfioravanti)
GLM-4.7-Flash-4bit의 MLX 벤치마크 두 번째 결과가 공개되었고, @N8Programs와 @awnihannun의 개선 PR이 main에 병합된 이후의 결과임. M3 Ultra 512 환경에서 측정한 V2는 prefill이 약간 느리지만 텍스트 생성 성능과 메모리 사용량이 크게 개선되었다는 보고입니다.
🚀 Ứng dụng mới cho phép kết hợp RAM iPhone 17 Pro (12 GB) và Mac M1 Pro (32 GB) để chạy mô hình AI lớn hơn. Bottleneck là lớp giao tiếp → ưu tiên kết nối USB, iOS chỉ cho phép dùng ~6.4 GB. Hiệu năng giảm ~25 % so với chạy toàn trên Mac. Tải app trên App Store, link sẽ có trong bình luận.
#AI #MachineLearning #iOS #macOS #MLX #TechVietnam #CôngNghệ #iPhone #Mac #ML
https://www.reddit.com/r/LocalLLaMA/comments/1qk61v7/iosmacos_app_for_distributed_inference/
EXO Labs (@exolabs)
해당 프로젝트는 MLX 백엔드를 사용하며, Day-0(초기) 지원이 가능했던 것은 @ivanfioravanti의 매우 빠른 모델 포팅 덕분이라는 언급입니다. 즉시 사용 가능한 초기 릴리스 지원과 모델 포팅 속도가 강조된 사례입니다.
N8 Programs (@N8Programs)
ml-explore/mlx-lm 저장소에 PR이 제출되었으며(링크 포함), 긴 문맥에서 프롬프트 처리 속도에 약간의 저하가 있는 대신 비모델(비파라미터) 최대 메모리가 3배 감소하고 긴 컨텍스트에서 디코딩 속도가 2배 빨라지는 개선점이 보고되었습니다. 성능-메모리 트레이드오프 관련 중요한 업데이트입니다.
yags (@yagilb)
GLM-4.7-Flash의 MLX 지원이 LM Studio에 정식으로 추가되었습니다. 해당 통합은 @ivanfioravanti와 @awnihannun의 기여로 이루어졌으며, 개발자들이 LM Studio에서 GLM-4.7-Flash 모델을 바로 사용해 테스트·추론할 수 있게 된 업데이트입니다.
https://x.com/yagilb/status/2013341470988579003
#glm4.7flash #lmstudio #mlx #inference
Ivan Fioravanti ᯅ (@ivanfioravanti)
OpenCode에서 GLM-4-7-Flash-4bit 모델을 MLX와 함께 애플 M3 Ultra에서 실행해 매우 빠른 성능을 보였다는 게시물입니다. 4비트 데모(video)가 공개되어 있으며 8비트 버전도 언급되어 있습니다. 하드웨어(M3 Ultra)에서 경량화(4bit/8bit) 모델의 고속 실행 사례를 보여줍니다.
LM Studio (@lmstudio)
GLM-4.7-Flash(30B)가 @Zai_org로부터 LM Studio에 등록되어 Mac에서 로컬 코딩 에이전트로 사용 가능하다는 발표입니다. Apple Silicon용 MLX에서도 사용 가능하다고 명시되어 있어 로컬 LLM 배포 측면에서 중요합니다.