순위 인식을 위한 강화학습 프레임워크
초록
본 논문은 회귀와 학습‑투‑랭크(L2R)를 하나의 강화학습(RL) 목표로 결합한 Ranking‑Aware Reinforcement Learning(RARL)을 제안한다. 검증 가능한 보상 함수는 회귀 정확도와 순위 일치를 동시에 평가하며, Response Mutation Operation(RMO)을 통해 탐색을 강화하고 정책의 엔트로피 붕괴를 방지한다. UTKFace, COCO‑REM, AVA 등 세 가지 벤치마크에서 기존 모델 대비 현저한 성능 향상을 입증한다.
상세 분석
RARL은 기존의 순위·회귀 분리 접근법과 달리, 정책 πθ를 직접 최적화하는 강화학습 프레임워크에 기반한다. 핵심은 두 개의 검증 가능한 보상 Rreg와 Rrank를 선형 결합한 Rfinal이며, 각각 회귀 정확도와 순위 품질을 정량화한다. 회귀 보상 rregi는 예측값 ỹi가 실제값 yi와 허용 오차 δ 이내에 있을 때만 비제로 값을 부여하고, 오차가 클 경우 0으로 처리해 과도한 패널티를 방지한다. 순위 보상은 (1) 길이 일치 rlen, (2) 회귀 기반 순위와 모델이 직접 생성한 순위 간의 Kendall‑τ 기반 일관성 rconsis, (3) 인간 라벨과의 직접적인 Kendall‑τ racc 세 요소를 합산한다. 이렇게 설계된 보상은 회귀와 순위 사이의 양방향 정규화를 가능하게 하여, 회귀 오류가 순위 정렬에 반영되고, 반대로 순위 일치도가 회귀 손실을 억제한다는 시너지 효과를 만든다.
정책 최적화는 Group Relative Policy Optimization(GRPO)을 사용한다. GRPO는 동일 그룹 내 응답들의 평균·표준편차를 이용해 정규화된 어드밴티지 Âi를 계산하고, 이를 기반으로 정책 그라디언트를 추정한다. 그러나 동일 그룹 응답이 모두 낮은 보상을 받을 경우 어드밴티지가 0에 수렴해 엔트로피 붕괴가 발생한다. 이를 해결하기 위해 제안된 Response Mutation Operation(RMO)은 각 배치에서 k 개의 저보상 응답을 정답 혹은 고보상 레퍼런스로 교체한다. 교체된 응답은 새로운 어드밴티지 Â′j를 갖게 되며, 이는 변동성을 인위적으로 증가시켜 정책 그라디언트가 사라지는 현상을 방지한다.
학습은 두 단계로 진행된다. 1단계에서는 회귀 보상만 사용해 기본 회귀 능력을 확보하고, 2단계에서 전체 Rfinal 과 RMO를 도입해 순위 최적화를 동시에 수행한다. 이 단계적 접근은 초기 단계에서 과도한 보상 충돌을 피하고, 최종 단계에서 순위‑회귀 상호작용을 최대화한다.
실험에서는 Qwen2.5‑VL 기반 모델(3B·7B) 위에 RARL을 적용하였다. UTKFace(연령 추정)에서는 MAE가 4.02→3.81(7B)로 감소했고, Kendall‑τ는 0.921까지 상승했다. COCO‑REM(객체 카운팅)에서는 정확도가 68.73%→71.80%로, AVA(미학 평가)에서는 SRCC가 0.783→0.803으로 향상되었다. Ablation 연구에서 회귀 보상만(+Reg) 혹은 순위 보상만(+Rank) 사용해도 각각 Baseline보다 크게 개선되지만, 두 보상을 모두 결합한 전체 RARL이 가장 높은 성능을 보였다. 또한 RMO를 적용하지 않은 경우 MAE가 4.17→4.02로 감소하는 등, 탐색 강화가 실제 성능 향상에 기여함을 확인했다.
전반적으로 RARL은 검증 가능한 보상을 통해 정책을 직접 조정함으로써, 기존의 지도학습 기반 순위·회귀 모델이 겪는 라벨 불일치·목표 충돌 문제를 근본적으로 해결한다. 또한 RMO와 두 단계 학습 전략은 RL 기반 최적화에서 흔히 발생하는 정책 정체 현상을 효과적으로 완화한다는 점에서 학술적·실용적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기