예상 보상이 초래하는 결과 수준 모드 붕괴와 역확률 스케일링 해결법

예상 보상이 초래하는 결과 수준 모드 붕괴와 역확률 스케일링 해결법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기대 보상 최대화가 다중 최적 해를 가진 강화학습 환경에서 결과 수준 모드 붕괴를 구조적으로 야기한다는 이론적 증명을 제시한다. 기대 보상 안에서 확률이 자체 업데이트에 곱해지는 피드백 루프가 발생해 어느 하나의 결과가 지배적으로 성장한다. 이를 근본적으로 고치기 위해 저자는 “역확률 스케일링”(IPS)을 도입, 보상을 결과 발생 확률의 역수로 가중해 보상‑비례 분포를 목표로 한다. IPS를 기존 GRPO에 적용한 IPS‑GRPO를 구현하고, 격자 탐색, 가설 공간 추론, 분자 설계 등 다양한 멀티모달 태스크에서 모드 붕괴를 크게 완화하면서 성능을 유지하거나 향상시켰다.

상세 분석

논문은 먼저 “결과‑레벨 모드 붕괴”(outcome‑level mode collapse)가 기존 연구에서 탐색 부족이나 정규화 약화로 설명되는 한계를 지적한다. 이를 넘어서 기대 보상(maximize E


댓글 및 학술 토론

Loading comments...

의견 남기기