yzma 1.7 is out! With support for the very latest llama.cpp features and models, hardware acceleration, and all from Go without needing CGo.
You should go get it right now!
yzma 1.7 is out! With support for the very latest llama.cpp features and models, hardware acceleration, and all from Go without needing CGo.
You should go get it right now!
DeepInfra (@DeepInfra)
DeepInfra가 GLM-4.7-Flash 벤치에서 @ArtificialAnlys를 제치고 처리량·지연·가격 면에서 우수한 성능을 주장했습니다. 보고된 수치: 105.7 tok/s, 0.24s TTFT, $0.14/1M. 발표자는 더 나은 커널이 동일 예산으로 더 높은 처리량을 준다고 강조해 AI 추론 인프라 최적화와 비용 효율성 관련 중요한 업데이트로 볼 수 있습니다.
OpenAI Developers (@OpenAIDevs)
GPT-5.2와 GPT-5.2-Codex의 처리 속도가 40% 향상되었으며, 모든 API 고객을 위해 인퍼런스 스택을 최적화했다고 발표. 동일한 모델과 가중치 유지, 지연 시간 감소로 실사용 성능 개선을 강조하는 인프라/성능 업데이트.
Mojofull (@furoku)
짧은 한 문장으로 'AI 모델의 고속화 경쟁이 시작되었다'고 알리는 트윗입니다. 모델 추론·학습 속도 개선과 최적화 경쟁이 본격화되고 있음을 시사하는 트렌드 알림으로 해석됩니다.
Nvidia's $100 billion OpenAI deal has seemingly vanished https://arstechni.ca/Gp5q #Tags:machinelearning #AIinfrastructure #semiconductors #AIinvestment #JensenHuang #inference #samaltman #Cerebras #AIchips #Biz&IT #NVIDIA #openai #Groq #AMD #GPU #AI
Challenge accepted 💪
Will talk about my Christmas holiday project NanoSchnack @ Cloud Native Heidelberg meetup, Feb 26.
GPT-2 the Hard Way. Building a LLM from scratch.
#transformers #attention #tokens #embeddings #training #pytorch #h100 #inference
Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение
«Данные закончились». «Архитектура исчерпана». «LLM упёрлись в потолок». Звучит умно. Проблема? Это одномерное мышление. Когда говорят «данные закончились» — имеют в виду текстовые данные для supervised pre-training. Это правда. Но это одна ось из шести , по которым модели становятся умнее. Inference-time compute (o1/o3), algorithmic efficiency (Mamba, MoE), мультимодальность, tool use, RL и self-play — пять осей, о которых забывают, когда хоронят AI. В 2020 году консенсус был: GPT-3 — потолок. В 2022: нужны триллионы токенов для каждого улучшения. В 2023: reasoning невозможен без symbolic AI. Все эти «потолки» были пробиты. Даю ментальную модель, которая позволит не попадаться на ложные прогнозы о «смерти AI» — и задавать правильные вопросы, когда кто-то уверенно предсказывает будущее.
https://habr.com/ru/articles/992008/
#llm #gpt #scaling_laws #machine_learning #transformer #inference #rlhf
Turns out the current generation of model based AI cannot tell when it does not know the answer to a question; something humans can tell but prefer not to.
I thought all my robots needed was an #inference engine with #deduction capability.
Lựa chọn phần cứng cho inference cá nhân: Radeon Pro R9700 hay Nvidia RTX 4000/4500/5000?
#Inference #Phần_cứng #Radeon #Nvidia #RTX #CUDA #PyTorch #MachineLearning #Hệ_thống_máy_tính
https://www.reddit.com/r/LocalLLaMA/comments/1qral3u/what_hardware_to_buy_for_personal_inference/
Куда и почему уходят бабки на нейросети
Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус. Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения. Иначе пользователь чувствовал бы себя как в дурке, ИИ его бы постоянно как бы газлайтил, изменяя старые ответы без предупреждения. По факту, история переписки в ИИ-чатах фиксирована, тем или иным способом. И стоило бы это вагон. Интересно. Читать далее
https://habr.com/ru/companies/bar/articles/991126/
#LLM #transformer #attention #KVcache #inference #GPU #CUDA #ChatGPT #Claude #токены
Q*Satoshi (@AiXsatoshi)
Kimi-k2.5는 파라미터가 매우 커서 4bit 상태로 그대로 실행하려면 Mac Studio 512GB 두 대가 필요하지만, IQ3_XXS는 415GB로 단일 Mac에서 동작한다. 작성자는 IQ3_XXS가 메인 모델이 될 것으로 보며, 두 대를 이용한 분산 추론은 아직 안정적이지 않다고 보고함.
Gavin (@GavinSherry)
DefinitiveIO의 주요 초점은 저지연(low-latency) 추론 문제 해결이었고, 저지연 추론 필요성 때문에 Groq와 재연결하게 되었으며 이 협력이 이후 진행 과정에서 중요한 전환점이 되었다는 회고적 설명.
Sebastian Raschka (@rasbt)
@mattturck와의 대화에서 LLM 관련 여러 주제를 다뤘음을 언급. 주요 토픽은 트랜스포머 아키텍처의 미래와 LLM 성능에서 최근 주목받는 접근인 inference-time scaling(추론 시 스케일링) 등으로, LLM 연구·효율성 논의에 관한 내용.
Fireworks AI (@FireworksAI_HQ)
최신 Kimi K2.5 모델 관련 소식으로, Fireworks가 @ArtificialAnlys 벤치마크에서 Kimi K2.5 추론 성능 184 tokens/sec를 기록해 가장 빠른 추론 제공자였다고 발표했습니다(다음 사업자 대비 76% 빠름). 이는 지연 시간 감소와 응답 속도 향상을 의미합니다.
Daniel Kim (@learnwdaniel)
사용자가 Moltbot을 Cerebras 하드웨어에서 구동했을 때 매우 빠르고 사용성(ergonomic)이 좋았다고 보고했습니다. Cerebras 기반 가속 환경에서 Moltbot의 성능·응답성 개선에 대한 실사용 피드백으로 해석될 수 있습니다.
Jay Sensei (@hckinz)
grok에 대한 평가로, 더 빠른 추론과 검열 완화, 프롬프트 없이 창의적 추론이 장점으로 언급되었으나 API 호출은 grok 앱에 비해 축소(nerfed)된 것으로 보인다는 관찰입니다.
Dreaming Tulpa (@dreamingtulpa)
opencode를 완전히 수용한 뒤 실제 병목은 모델 학습이 아니라 추론(inference) 속도와 Claude Opus의 레이트 리밋(rate limits)임을 깨달았다는 언급입니다. 즉 오픈 소스 코드·모델 채택 후 운영 단계에서의 추론 성능과 API 제약이 주요 문제라는 내용으로, 개발·배포 관점에서 실무적 제약을 지적하고 있습니다.
Février se fera sans Claude pour moi.
Objectif : remplacer Anthropic complètement, si possible.
Ils ont beau avoir un modèle puissant (Opus), leur guerre permanente contre l’open source finit par me lasser sévèrement. Le blocage des accès API sur les abonnements a été la goutte d’eau.
Sans le libre, Anthropic n’existerait même pas.
Février sera donc l’occasion pour moi de tester Kimi K2.5, un modèle open source qui rivaliserait avec Opus.
On verra si j’y arrive, si je le regrette… ou pas. 😀
À côté, je continue à explorer les champs des possibles que m’offre le RIG que je suis en train de monter. Je commence à avoir des résultats sympas : 40 à 90 tokens/s sur des modèles comme Devstral-Small-2-24B et GLM-4.7-Flash.
Ces modèles me servent sur des tâches simples mais répétitives, gèrent aussi toute ma domotique, une partie des tâches bureautiques et de documentation (Nextcloud, Perplexica…), et je commence à les intégrer dans ma gestion de tickets clients ainsi que dans mes CI/CD.
#inference #llm #devcommunity #developertools
fly51fly (@fly51fly)
논문 'LLM-42'는 'verified speculation' 기법을 도입해 LLM 추론에서 결정론(determinism)을 가능하게 하는 방법을 제안합니다. Microsoft Research, UW, IISc 공동연구로, 추측(speculation)을 검증하는 메커니즘을 통해 추론의 일관성과 재현성을 개선하는 접근을 보여줍니다.
Cerebras (@cerebras)
GLM4.7 해커톤 X 트랙 우승자가 발표되었습니다(공동주최: @cline). 우승자 @Maaztwts와 @enflect_는 상금 2,500 USD와 Cerebras Code 플랜을 수상했으며, 24시간 안에 FAST inference를 활용해 데스크탑 AI 어시스턴트를 구축한 점이 주요 내용입니다.