지식 강화 선호 최적화로 추론 기반 강화학습 안정화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

KEPO는 고품질 경로에만 교사 모델의 토큰‑레벨 지식을 적용하고, 보상이 없는 상황에서는 교사의 힌트를 활용해 보상‑양성 경로를 재생성하는 두 가지 메커니즘을 결합한다. 이를 통해 의료 영상 질문응답(VQA)에서 희소 보상 문제와 탐색 정체를 완화하고, 학습 안정성과 추론 일관성을 크게 향상시킨다.

상세 분석

본 논문은 추론 중심의 대형 언어·시각‑언어 모델에 강화학습(RL)을 적용할 때 직면하는 두 가지 근본적인 장애, 즉 “학습 절벽”이라 명명한 희소 보상에 의한 신용 할당 불명확성 및 탐색 붕괴 현상을 정확히 짚어낸다. 기존 온‑폴리시 지식 증류(On‑Policy Distillation) 기법은 교사 모델의 토큰‑레벨 지도 신호를 모든 생성 경로에 균일하게 적용함으로써 학습을 안정화시키지만, 논리적 오류가 초기에 발생한 저품질 경로에 동일하게 적용될 경우 오히려 잡음이 섞인 그래디언트를 주입해 정책을 오도한다는 한계를 지적한다.

KEPO는 이를 해결하기 위해 (i) 품질‑게이트(distillation gating) 를 도입한다. 정책이 생성한 경로 y_i에 대해 보상 r_i가 사전 정의된 임계값 τ 이상이면 교사 모델 π_T와 KL 발산을 최소화하도록 토큰‑레벨 증류 손실 D(π_T‖π_θ) 를 적용하고, 그렇지 않은 경우에는 증류를 생략한다. 이렇게 하면 증류 신호가 실제 보상과 정렬되어, 성공적인 추론 흐름에 대한 밀집 신용 할당 역할을 수행한다.

(ii) 지식‑강화 탐색(knowledge‑enhanced exploration) 은 보상이 전혀 없는 경우(모든 r_i = 0) 교사 모델이 제공하는 “힌트”를 이용해 보상‑양성 후보를 생성한다. 구체적으로 교사는 정답과 연관된 힌트를 생성하고, 학생 모델은 이를 조건부 입력으로 받아 힌트‑조건부 샘플링을 수행한다. 이 과정은 거부 샘플링(rejection sampling) 형태로 구현되어, 힌트‑조건부 경로가 실제 보상을 획득할 때까지 반복한다. 결과적으로 정책은 탐색 단계에서 정적 시연(demonstration) 없이도 교사의 암묵적 지식을 활용해 학습 절벽을 탈피한다.

알고리즘적 구현은 기존 그룹 기반 정책 최적화(GRPO, RLOO 등)의 Monte‑Carlo 기반 손실에 위 두 요소를 추가한 형태이다. 중요도 가중치 w_i와 그룹 평균 기반 어드밴티지 ˆA_i는 그대로 유지하면서, 품질‑게이트 증류와 힌트‑강화 탐색을 통해 생성된 전체 후보 풀 G에 대해 전체 손실 J_KEPO를 최적화한다. KL 정규화는 정책이 교사·레퍼런스 정책으로부터 과도하게 벗어나지 않도록 제어한다.

실험은 의료 영상 질문응답(VQA) 데이터셋을 사용해 단일 소스(MRI) 학습 후 다중 모달(OCT, X‑ray 등)에서 OOD 성능을 평가한다. 결과는 (1) 학습 곡선의 변동성이 크게 감소하고, (2) 체인‑오브‑생각(chain‑of‑thought) 형태의 추론 단계가 더 일관되고 논리적으로 정합성을 보이며, (3) 기존 RL 및 온‑폴리시 증류 베이스라인 대비 OOD 정확도가 4~7%p 상승함을 보여준다. 특히, 탐색 단계에서 힌트‑조건부 재생성이 없을 경우 정책이 “학습 절벽”에 머무르는 현상이 관찰되었으며, 이는 제안된 지식‑강화 탐색이 실제로 탐색 붕괴를 방지한다는 강력한 증거가 된다.

전반적으로 KEPO는 (1) 희소 보상 환경에서의 신용 할당 문제를 밀집 교사 신호로 보완하고, (2) 교사의 암묵적 지식을 동적 탐색에 활용함으로써 탐색 효율성을 크게 향상시키는 두 축을 동시에 만족한다는 점에서, 추론‑중심 멀티모달 모델의 사후 학습(post‑training)에 새로운 패러다임을 제시한다.

지식 강화 선호 최적화로 추론 기반 강화학습 안정화

초록

상세 분석

댓글 및 학술 토론

의견 남기기