khazzz1c (@Imkhazzz1c)
토큰 단위 보상 신호(token-level reward signals)가 '완벽'해진다면, 평가 역할을 하는 critic 모델(가치 평가자)이 불필요해지는지 묻는 이론적·연구적 질문을 제기하고 있습니다.
khazzz1c (@Imkhazzz1c)
토큰 단위 보상 신호(token-level reward signals)가 '완벽'해진다면, 평가 역할을 하는 critic 모델(가치 평가자)이 불필요해지는지 묻는 이론적·연구적 질문을 제기하고 있습니다.