Sebastian Raschka (@rasbt)
강화학습 GRPO 개선을 다룬 챕터(Ch07)를 완성했다는 보고로, GRPO from scratch 기반에 클리핑된 정책비율(clipped policy ratios), KL 항, 포맷 보상(format rewards) 등 여러 개선기법을 추가해 분석 및 구현을 제공함. 관련 코드와 노트북은 rasbt의 reasoning-from-scratch GitHub 리포지토리에 공개되어 있어 재현과 실험이 가능함.


