Lmst

This might not make sense to a lot of people, but I think CUDA, an esoteric software library for math nerds, is basically responsible for the biggest market distortion in Capitalism since Merino Sheep.

#nvidia #cuda #capitalism

The amount of bloatware that gets installed on a Linux system to get the #CUDA drivers installed is ridiculous ... What is all of that supposed to do?

(Memo to self: This is installing "cuda-toolkit" via the repository from https://developer.download.nvidia.com/compute/cuda/repos/fedora42/x86_64/cuda-fedora42.repo)

Screenshot from an install of the cuda-toolkit package which says "Will download: 76 packages (4.1 GB)"

yzma 1.7 is out! With support for the very latest llama.cpp features and models, hardware acceleration, and all from Go without needing CGo.

You should go get it right now!

https://github.com/hybridgroup/yzma

#golang #llama #ml #vlm #inference #cuda #vulkan

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

사용자가 Zasuko가 소개한 DarioFT의 Workflow를 따라해봤고, CUDA 버전 차이 등으로 문제가 발생하여 새로 ComfyUI를 설치해 TSS 전용 환경으로 구성했다는 경험담입니다. 개발 환경·의존성 문제 해결과 ComfyUI 기반 워크플로우 설정 관련 실무적 업데이트입니다.

https://x.com/kiyoshi_shin/status/2019066330167615851

#comfyui #cuda #workflow #darioft #tss

Private LLM Inference on Consumer Blackwell GPUs: A Practical Guide for Cost-Effective Local Deployment in SMEs

#CUDA #LLM #Package

https://hgpu.org/?p=30520

Nsight Python: A Python-First Profiling Toolkit for Seamless GPU Kernel Analysis (Tool)

#CUDA #Triton #Profiling #Package

https://hgpu.org/?p=30517

Cheng (@zcbenz)

MLX의 CUDA 백엔드가 Windows에서 빌드되고 테스트를 통과했다는 개발 업데이트입니다. @ollama의 많은 도움으로 가능했으며, Windows용 바이너리 제공을 위한 추가 작업이 남아 있지만 ollama가 코드를 사용자에게 더 빨리 배포할 가능성이 크다고 전했습니다.

https://x.com/zcbenz/status/2017420563799818648

#mlx #cuda #windows #ollama #gpu

Lựa chọn phần cứng cho inference cá nhân: Radeon Pro R9700 hay Nvidia RTX 4000/4500/5000?
#Inference #Phần_cứng #Radeon #Nvidia #RTX #CUDA #PyTorch #MachineLearning #Hệ_thống_máy_tính

https://www.reddit.com/r/LocalLLaMA/comments/1qral3u/what_hardware_to_buy_for_personal_inference/

Куда и почему уходят бабки на нейросети

Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус. Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения. Иначе пользователь чувствовал бы себя как в дурке, ИИ его бы постоянно как бы газлайтил, изменяя старые ответы без предупреждения. По факту, история переписки в ИИ-чатах фиксирована, тем или иным способом. И стоило бы это вагон. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/991126/

#LLM #transformer #attention #KVcache #inference #GPU #CUDA #ChatGPT #Claude #токены

Tác giả đã phát triển Monolith – ứng dụng Windows kết hợp LLM, Stable Diffusion, và tạo âm thanh trong một giao diện. Yêu cầu: Windows, GPU CUDA, Python 3.10+. Bản alpha, mã nguồn mở MIT. Đánh giá tính năng, hiệu năng & tìm thử nghiệm trên AMD/Mac. GitHub: [github.com/Svnse/monolith](https://github.com/Svnse/monolith)
#AI #MachineLearning #LocalLLaMA #StableDiffusion #ÂmThanh #PhátTriểnPhầnMềm #CUDA #Windows #MởMã #ỨngDụngBảnĐịa #AIHiệnĐại #GiaoDịchĐaNăng

https://www.reddit.com/r/LocalLLaMA/c

Ben Burtenshaw (@ben_burtenshaw)

Claude를 이용해 오픈 모델에게 CUDA 커널 작성 같은 어려운 능력을 가르치는 방법을 다룬 블로그 글 요약입니다. 에이전트 스킬(agent skills)을 활용해 강력한 모델(예: Claude Opus 4.5, OpenAI GPT-5.2)을 교사로 삼아 모델 간 하드 캡빌리티(커널 작성 등)를 전수하는 절차를 단계별로 설명합니다. 실무적 모델 전수 기법과 사례를 다룸.

https://x.com/ben_burtenshaw/status/2016534389685940372

#claude #gpt #cuda #agents #modeltransfer

DeepSeek OCR 2 hiện hỗ trợ định dạng CPU, MPS và CUDA, cho phép chạy cục bộ trên laptop/Mac. Cập nhật từ Dogacel mở rộng tính linh hoạt của mô hình OCR này. #DeepLearning #OCR #CPU #MPS #CUDA #MachineLearning #HọcMáy #AI #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1qpf7f8/universal_deepseek_ocr_2_cpu_mps_cuda_support/

Viện Công nghệ Thông tin (LMSYS) đã công bố giải pháp nén mô hình AI 1TB thành 1 H200, nâng cao Hiệu năng AI và tối ưu hóa lưu trữ. Phá vỡ giới hạn phần cứng, mở ra tiềm năng cho mô hình AI lớn hơn.

#AI #machinelearning #GPU #H200 #ViễnThámAI #CNN #GPU #CUDA #AIthếhệtiếp #HiệuSuất #CôngNghệ ThôngTin

https://www.reddit.com/r/LocalLLaMA/comments/1qpdax9/1tb_modl_into_a_single_h200/

#ITByte: #CUDA (Compute Unified Device Architecture) is a parallel computing platform and programming model developed by #NVIDIA.

It enables software developers to use NVIDIA graphics processing units (GPUs) for general-purpose processing.

https://knowledgezone.co.in/posts/Compute-Unified-Device-Architecture-6797ac640792ae20597f9da3

Người dùng đang gặp khó khăn khi cài đặt Chatterbox-TTS trên Windows 11 với card đồ họa RTX 5070 Ti (kiến trúc Blackwell). Vấn đề chính nằm ở xung đột phiên bản: kiến trúc mới yêu cầu PyTorch bản cao, trong khi Chatterbox chỉ hỗ trợ các bản cũ hơn. Việc cài đặt trực tiếp qua UV hoặc Pip đang gặp lỗi không nhận diện được CUDA, buộc phải chạy bằng CPU chậm chạp.

#ChatterboxTTS #RTX5070Ti #Blackwell #CUDA #AI #TTS #MachineLearning #CongNghe #PhanMem

https://www.reddit.com/r/LocalLLaMA/comments/1q

Pre-built llama-cpp-python wheel dành cho RTX 5060 (Blackwell/sm_120) với CUDA 13.1 và Python 3.11 đã có! Không cần tự build phức tạp trên Windows. Hỗ trợ GPU offload đầy đủ, tăng tốc prompt eval và token generation. Tải tại GitHub Release: tương thích MSVC 2022, x64.

#llama_cpp_python #RTX5060 #CUDA #LocalLLM #AI #llama_cpp_python #RTX5060 #CUDA #LocalLLM #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1qona5k/prebuilt_llamacpppython_wheel_for_rtx_5060/

DeepReinforce (@deep_reinforce)

CUDA-L1이 ICLR 2026에 채택되었다는 발표입니다. 본 연구는 CUDA 코드 생성에 강화학습(RL)을 처음 적용한 작업이며, 이후 CUDA-L2 등 후속 작업도 함께 언급했습니다. 연구 커뮤니티의 빠른 발전을 강조하며 추가 결과와 업데이트는 추후 공개될 예정이라는 내용입니다.

https://x.com/deep_reinforce/status/2015894636448149665

#cudal1 #cuda #reinforcementlearning #iclr2026 #codegeneration

🚀 Đã backport FP8 cho RTX 3090, không cần H100! Bằng cách bỏ chuyển sang fp16 trong bộ nhớ toàn cục, tiết kiệm VRAM đáng kể, dù hiệu suất tính toán hơi giảm. Đã tích hợp torch extension, bạn có thể thử ngay trong workflow của mình. #AI #MachineLearning #FP8 #RTX3090 #CUDA #DeepLearning #AI_Vietnam #CôngNghệ