#criticmodel

khazzz1c (@Imkhazzz1c)

토큰 단위 보상 신호(token-level reward signals)가 '완벽'해진다면, 평가 역할을 하는 critic 모델(가치 평가자)이 불필요해지는지 묻는 이론적·연구적 질문을 제기하고 있습니다.

x.com/Imkhazzz1c/status/201573

#reinforcementlearning #rewardmodels #rl #criticmodel

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst