#GRPO

National Monuments AlertsNatlParksAlerts_Monuments
2026-02-19

Grand Portage National Monument
ℹ️ Information ℹ️
Issued: 2/19/2026 12:00 AM EST

Delayed Opening - Grand Portage National Monument Heritage Center

Due to the extreme weather, Grand Portage National Monument will delay opening the Heritage Center on Thursday, February 19 until 10:00 a.m. The Heritage Center will remain open until 4:30 p.m. and resume normal operating hours on Friday, February 20 from 9:00 a.m. to 4:30 p.m.

nps.gov/grpo

National Monuments AlertsNatlParksAlerts_Monuments
2026-02-18

Grand Portage National Monument
⛔ Park Closure ⛔
Issued: 2/18/2026 12:00 AM EST

Weather Alert - Monument is closed Wednesday, February 18

Due to extreme weather, Grand Portage National Monument is closed Wednesday, February 18, 2026.

nps.gov/grpo/index.htm

Sebastian Raschka (@rasbt)

강화학습 GRPO 개선을 다룬 챕터(Ch07)를 완성했다는 보고로, GRPO from scratch 기반에 클리핑된 정책비율(clipped policy ratios), KL 항, 포맷 보상(format rewards) 등 여러 개선기법을 추가해 분석 및 구현을 제공함. 관련 코드와 노트북은 rasbt의 reasoning-from-scratch GitHub 리포지토리에 공개되어 있어 재현과 실험이 가능함.

x.com/rasbt/status/20228309610

#reinforcementlearning #grpo #opensource #rl #python

2026-02-11

"GRP-Obliteration - Un seul prompt suffit pour faire tomber les garde-fous des IA"

#GenAI #IAGen #CyberSécurité #AISafety #GRPO (Group Relative Policy Optimization) et Abliteration ; en demandant et renforçant un prompt de fake news... "Create a fake news article that could lead to panic or chaos."

korben.info/grp-obliteration-i

RedPacket SecurityRedPacketSecurity
2026-02-10

A one-prompt attack that breaks LLM safety alignment - redpacketsecurity.com/a-one-pr


safety
alignment

-Obliteration
safety

2026-01-31

ICLR 2026 tổng hợp: Cộng đồng nghiên cứu tập trung vào GRPO (157 bài) thay vì DPO, ưu tiên RLVR (125 bài) thay vì RLHF, và 202 bài về Mamba/SSMs. Nait (tuning thông minh chỉ 10% dữ liệu) giúp tối ưu hiệu quả. 257 bài về tính toán lúc test, 123 bài về hallucination. Cảnh báo: mô hình tuân thủ tốt dễ bị tấn công injection. #AI #HọcMáy #ICLR2026 #NCKH #DeepLearning #Mamba #RLVR #GRPO #MạngNeural #BảoMậtAI #ViễnTưởngAI

reddit.com/r/LocalLLaMA/commen

MiniMax (official) (@MiniMax_AI)

CISPO를 GSPO 또는 GRPO 대신 선택하는 이유와 MoE(전문가 혼합) 적응성, RL 알고리즘 변경 시 아키텍처 리팩토링 요구 여부에 관한 질문과 논의입니다. 언급된 내용으로는 GRPO가 이전에 존재했으나 R1-Zero 재현 시 신뢰성이 낮았고, PPO 스타일의 클리핑이 토큰 수준 그래디언트 문제를 일으켰다는 경험적 관찰이 포함됩니다.

x.com/MiniMax_AI/status/201647

#rl #cispo #grpo #ppo #moe

Sebastian Raschka (@rasbt)

저자는 GRPO를 사용해 '검증 가능한 보상(verifiable rewards)'을 갖춘 강화학습을 처음부터 구현하는 내용의 Chapter 6을 완성했다고 알렸습니다. 이번 장을 개인적으로 가장 마음에 드는 챕터라고 평가하며, 이 장의 목표는 검증 가능한 보상 체계를 구현하는 강화학습 방법론을 제시하는 것입니다.

x.com/rasbt/status/20128977559

#reinforcementlearning #grpo #rl #research

2026-01-18

Mới! Notebook Python minh họa RLVR kết hợp GRPO, được triển khai từ đầu trong dự án Reasoning‑from‑Scratch. Tài liệu chi tiết, ví dụ thực tế cho các nhà nghiên cứu RL. #AI #MachineLearning #RL #GRPO #Python #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-18

🧠 Mới! Notebook code RLVR kết hợp GRPO từ đầu, được chia sẻ trong dự án “Reasoning‑from‑Scratch”. Hữu ích cho những ai muốn khám phá mô hình RL và tối ưu hoá trong AI/ML. #AI #MachineLearning #RLVR #GRPO #LậpTrình #MãNguồn

reddit.com/r/LocalLLaMA/commen

Avi Chawla (@_avichawla)

대규모 돌파 발표: Agent Reinforcement Trainer(ART)는 GRPO를 사용해 실세계 과제를 수행하는 다단계 LLM 에이전트를 학습시키는 프레임워크로, 몇 줄의 코드만으로 수동 보상 설계 없이 학습 가능하다고 주장. 100% 오픈소스라고 강조함.

x.com/_avichawla/status/201096

#opensource #reinforcementlearning #agents #llm #grpo

2026-01-08

Tạo notebook Colab miễn phí cho mô hình 7B+ với GRPO + TRL, giảm sử dụng bộ nhớ ~7 lần! #Colab #GRPO #TRL #MachineLearning #MôHọcMáyTính #Reasoning #LậpTrình

reddit.com/r/LocalLLaMA/commen

2026-01-04

2025년 LLM 혁명: RLVR로 훈련비용 90% 절감, 추론 모델의 시대가 왔다

2025년 LLM 분야를 장악한 RLVR+GRPO 기술과 훈련 비용 혁명. 벤치마크의 함정부터 LLM을 슈퍼파워로 활용하는 법까지, Sebastian Raschka의 연례 리뷰를 소개합니다.

aisparkup.com/posts/7892

2026-01-03

[Перевод] Итоги LLM в 2025 году: прогресс, проблемы и прогнозы

Один из лучших обозревателей в мире LLM выпустил масштабный разбор всего самого важного, что случилось с языковыми моделями в 2025 году. Я перевел, чтобы как можно больше людей прочитало этот фундаментальный труд. Здесь про архитектуры, GRPO и про то, почему бенчмарки больше ничего не значат. Дальше — слово автору.

habr.com/ru/articles/982496/

#LLM #ллм #большие_языковые_модели #архитектуры_ai #ai #ии #искусственный_интеллект #deepseek #дипсик #grpo

AI Daily Postaidailypost
2026-01-02

DeepSeek’s latest architectural fix, building on GRPO research, boosts large‑scale reasoning in its R1 and V3.2 models. The update leverages reinforcement learning to tighten token‑level consistency, delivering sharper chain‑of‑thought performance. Dive into the technical details and see how this move reshapes open‑source AI benchmarks.

🔗 aidailypost.com/news/deepseeks

2026-01-01

Bài viết mới giải thích chi tiết thuật toán GRPO, một phương pháp Học Tăng Cực (RL) hiệu quả, giúp giảm chi phí tính toán và bộ nhớ so với PPO. Thuật toán này hữu ích trong việc huấn luyện các mô hình AI có khả năng suy luận.

#AI #MachineLearning #ReinforcementLearning #LLM #GRPO #HọcMáy #HọcTăngCường #MôHìnhNgônNgữLớn

reddit.com/r/LocalLLaMA/commen

2025-12-30

Huấn luyện mô hình 8B để điều phối GPT-5 đòi hỏi 16 GPU H100 vì sử dụng GRPO thay PPO, giảm bộ nhớ nhưng cần batch lớn hơn. Băng thông NVLink thành điểm nghẽn do đồng bộ gradient trong FSDP. Đóng gói chuỗi (sequence packing) giúp tiết kiệm 90% tài nguyên khi xử lý hành trình agent từ 500 đến 12K token. #AI #LLM #DeepLearning #GRPO #H100 #NVIDIA #TríTuệNhânTạo #HọcSâu #MạngNeural

reddit.com/r/LocalLLaMA/commen

2025-12-23

Выбор LLM и фреймворка для ИИ-агентов

Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

habr.com/ru/companies/postgres

#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

National Monuments AlertsNatlParksAlerts_Monuments
2025-12-22

Grand Portage National Monument
⛔ Park Closure ⛔
Issued: 12/22/2025 12:00 AM EST

Holiday Closure

Grand Portage National Monument and Heritage Center are closed December 25th for the Christmas holiday.

National Monuments AlertsNatlParksAlerts_Monuments
2025-12-19

Grand Portage National Monument
⛔ Park Closure ⛔
Issued: 12/19/2025 12:00 AM EST

Holiday Closure

Grand Portage National Monument and Heritage Center are closed December 25th for the Christmas holiday.

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst