This might not make sense to a lot of people, but I think CUDA, an esoteric software library for math nerds, is basically responsible for the biggest market distortion in Capitalism since Merino Sheep.
This might not make sense to a lot of people, but I think CUDA, an esoteric software library for math nerds, is basically responsible for the biggest market distortion in Capitalism since Merino Sheep.
The amount of bloatware that gets installed on a Linux system to get the #CUDA drivers installed is ridiculous ... What is all of that supposed to do?
(Memo to self: This is installing "cuda-toolkit" via the repository from https://developer.download.nvidia.com/compute/cuda/repos/fedora42/x86_64/cuda-fedora42.repo)
yzma 1.7 is out! With support for the very latest llama.cpp features and models, hardware acceleration, and all from Go without needing CGo.
You should go get it right now!
Private LLM Inference on Consumer Blackwell GPUs: A Practical Guide for Cost-Effective Local Deployment in SMEs
Nsight Python: A Python-First Profiling Toolkit for Seamless GPU Kernel Analysis (Tool)
Lựa chọn phần cứng cho inference cá nhân: Radeon Pro R9700 hay Nvidia RTX 4000/4500/5000?
#Inference #Phần_cứng #Radeon #Nvidia #RTX #CUDA #PyTorch #MachineLearning #Hệ_thống_máy_tính
https://www.reddit.com/r/LocalLLaMA/comments/1qral3u/what_hardware_to_buy_for_personal_inference/
Куда и почему уходят бабки на нейросети
Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус. Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения. Иначе пользователь чувствовал бы себя как в дурке, ИИ его бы постоянно как бы газлайтил, изменяя старые ответы без предупреждения. По факту, история переписки в ИИ-чатах фиксирована, тем или иным способом. И стоило бы это вагон. Интересно. Читать далее
https://habr.com/ru/companies/bar/articles/991126/
#LLM #transformer #attention #KVcache #inference #GPU #CUDA #ChatGPT #Claude #токены
Tác giả đã phát triển Monolith – ứng dụng Windows kết hợp LLM, Stable Diffusion, và tạo âm thanh trong một giao diện. Yêu cầu: Windows, GPU CUDA, Python 3.10+. Bản alpha, mã nguồn mở MIT. Đánh giá tính năng, hiệu năng & tìm thử nghiệm trên AMD/Mac. GitHub: [github.com/Svnse/monolith](https://github.com/Svnse/monolith)
#AI #MachineLearning #LocalLLaMA #StableDiffusion #ÂmThanh #PhátTriểnPhầnMềm #CUDA #Windows #MởMã #ỨngDụngBảnĐịa #AIHiệnĐại #GiaoDịchĐaNăng
Ben Burtenshaw (@ben_burtenshaw)
Claude를 이용해 오픈 모델에게 CUDA 커널 작성 같은 어려운 능력을 가르치는 방법을 다룬 블로그 글 요약입니다. 에이전트 스킬(agent skills)을 활용해 강력한 모델(예: Claude Opus 4.5, OpenAI GPT-5.2)을 교사로 삼아 모델 간 하드 캡빌리티(커널 작성 등)를 전수하는 절차를 단계별로 설명합니다. 실무적 모델 전수 기법과 사례를 다룸.
DeepSeek OCR 2 hiện hỗ trợ định dạng CPU, MPS và CUDA, cho phép chạy cục bộ trên laptop/Mac. Cập nhật từ Dogacel mở rộng tính linh hoạt của mô hình OCR này. #DeepLearning #OCR #CPU #MPS #CUDA #MachineLearning #HọcMáy #AI #CôngNghệ
https://www.reddit.com/r/LocalLLaMA/comments/1qpf7f8/universal_deepseek_ocr_2_cpu_mps_cuda_support/
Viện Công nghệ Thông tin (LMSYS) đã công bố giải pháp nén mô hình AI 1TB thành 1 H200, nâng cao Hiệu năng AI và tối ưu hóa lưu trữ. Phá vỡ giới hạn phần cứng, mở ra tiềm năng cho mô hình AI lớn hơn.
#AI #machinelearning #GPU #H200 #ViễnThámAI #CNN #GPU #CUDA #AIthếhệtiếp #HiệuSuất #CôngNghệ ThôngTin
https://www.reddit.com/r/LocalLLaMA/comments/1qpdax9/1tb_modl_into_a_single_h200/
#ITByte: #CUDA (Compute Unified Device Architecture) is a parallel computing platform and programming model developed by #NVIDIA.
It enables software developers to use NVIDIA graphics processing units (GPUs) for general-purpose processing.
https://knowledgezone.co.in/posts/Compute-Unified-Device-Architecture-6797ac640792ae20597f9da3
Người dùng đang gặp khó khăn khi cài đặt Chatterbox-TTS trên Windows 11 với card đồ họa RTX 5070 Ti (kiến trúc Blackwell). Vấn đề chính nằm ở xung đột phiên bản: kiến trúc mới yêu cầu PyTorch bản cao, trong khi Chatterbox chỉ hỗ trợ các bản cũ hơn. Việc cài đặt trực tiếp qua UV hoặc Pip đang gặp lỗi không nhận diện được CUDA, buộc phải chạy bằng CPU chậm chạp.
#ChatterboxTTS #RTX5070Ti #Blackwell #CUDA #AI #TTS #MachineLearning #CongNghe #PhanMem
Pre-built llama-cpp-python wheel dành cho RTX 5060 (Blackwell/sm_120) với CUDA 13.1 và Python 3.11 đã có! Không cần tự build phức tạp trên Windows. Hỗ trợ GPU offload đầy đủ, tăng tốc prompt eval và token generation. Tải tại GitHub Release: tương thích MSVC 2022, x64.
#llama_cpp_python #RTX5060 #CUDA #LocalLLM #AI #llama_cpp_python #RTX5060 #CUDA #LocalLLM #TríTuệNhânTạo
https://www.reddit.com/r/LocalLLaMA/comments/1qona5k/prebuilt_llamacpppython_wheel_for_rtx_5060/
DeepReinforce (@deep_reinforce)
CUDA-L1이 ICLR 2026에 채택되었다는 발표입니다. 본 연구는 CUDA 코드 생성에 강화학습(RL)을 처음 적용한 작업이며, 이후 CUDA-L2 등 후속 작업도 함께 언급했습니다. 연구 커뮤니티의 빠른 발전을 강조하며 추가 결과와 업데이트는 추후 공개될 예정이라는 내용입니다.
https://x.com/deep_reinforce/status/2015894636448149665
#cudal1 #cuda #reinforcementlearning #iclr2026 #codegeneration
🚀 Đã backport FP8 cho RTX 3090, không cần H100! Bằng cách bỏ chuyển sang fp16 trong bộ nhớ toàn cục, tiết kiệm VRAM đáng kể, dù hiệu suất tính toán hơi giảm. Đã tích hợp torch extension, bạn có thể thử ngay trong workflow của mình. #AI #MachineLearning #FP8 #RTX3090 #CUDA #DeepLearning #AI_Vietnam #CôngNghệ
Towards Automated Kernel Generation in the Era of LLMs
A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization