교차모달 순환 일관성 강화 학습으로 멀티모달 추론 향상

RC2는 멀티모달 모델이 시각·텍스트 간에 보이는 일관성 결함을 자체적인 순환 일관성 보상으로 교정한다. 후보 답을 역추론해 텍스트·이미지 질의를 생성하고, 다시 전방 추론해 네 가지 재구성 답을 얻어 원답과 비교한다. 라벨 없이 밀집된 보상을 제공해 RL 최적화를 수행함으로써 기존 모델 대비 7.6점까지 정확도와 모달 간 일관성을 크게 개선한다.

저자: Zirui Zhang, Haoyu Dong, Kexin Pei

교차모달 순환 일관성 강화 학습으로 멀티모달 추론 향상
본 논문은 멀티모달 대형 언어 모델(MLLM)이 시각과 텍스트 두 모달리티에 대해 동일한 입력을 받았음에도 불구하고 서로 다른 답을 내는 ‘모달리티 갭’ 문제를 다룬다. 이러한 불일치는 웹 UI 탐색, 문서 이해, 에이전트 시스템 등 실사용 환경에서 치명적인 오류를 초래한다. 기존 연구는 대규모 라벨링된 데이터로 사전 학습하거나, 라벨이 없는 상황에서는 다수결 투표를 이용해 자체 라벨을 생성하는 방식을 사용한다. 그러나 투표 방식은 모델이 이미 가지고 있는 편향을 강화하거나, 시각·텍스트 간 예측이 충돌할 때 불안정한 pseudo‑label을 만들게 된다. 특히 멀티모달 환경에서는 두 모달이 서로 다른 답을 내는 경우가 빈번해 ‘majority‑is‑wrong’ 현상이 심화된다. 이를 해결하기 위해 저자들은 ‘Cross‑Modal Cycle Consistency Reward (RC2)’라는 새로운 자기‑보상 프레임워크를 제안한다. RC2는 라벨 없이도 밀집된 보상을 생성할 수 있는 순환 일관성 메커니즘을 기반으로 한다. 구체적인 흐름은 다음과 같다. 1) 모델이 주어진 멀티모달 입력 x와 질의 q에 대해 후보 답 a₀를 생성한다. 2) 역추론 단계에서 a₀를 입력으로 하여 텍스트 관점(x_T)과 이미지 관점(x_I) 각각에 맞는 질의 \hat{q}_T와 \hat{q}_I를 생성한다. 이 과정은 “이 답을 얻기 위해 어떤 질문을 해야 하는가?”라는 메타 질문에 답하도록 모델을 훈련시킨다. 3) 생성된 두 질의를 다시 전방 추론에 사용해 네 가지 경로(T→T, T→I, I→T, I→I)를 통해 재구성 답 a_TT, a_TI, a_IT, a_II를 만든다. 4) 원래 후보 a₀와 네 재구성 답 사이의 일관성을 측정한다. 일관성이 높을수록 보상 r이 높게 부여되며, 이 보상은 라벨이 전혀 없는 상황에서도 정책 경사법(GRPO)으로 직접 최적화된다. RC2의 핵심 장점은 (1) 라벨이 필요 없는 dense reward를 제공한다는 점, (2) 모델이 스스로 자신의 답을 검증하고 모달 간 표현을 정렬하도록 강제한다는 점이다. 실험에서는 3B와 8B 규모의 MLLM에 RC2를 적용했으며, ScienceQA, ChartQA, InfoVQA, MathVista, A‑OKVQA, Visual Web Arena 등 6개 멀티모달 벤치마크에서 평균 4.2~7.6점의 정확도 향상을 달성했다. 특히 교차 모달 일관성 점수는 15~30% 상승했으며, 이는 모델이 동일 정보를 시각·텍스트 두 형태로 받아도 일관된 추론을 수행한다는 증거이다. Ablation 실험에서는 역추론 단계와 전방 추론 단계 각각을 제거했을 때 성능이 크게 감소함을 확인했으며, 보상 설계에서 순환 일관성 기반 보상이 단순 투표 기반 보상보다 훨씬 안정적이고 효율적임을 입증했다. 또한, RC2는 기존 RLHF 파이프라인에 쉽게 통합될 수 있으며, 추가적인 인간 라벨이나 외부 검증기가 필요 없다는 점에서 비용 효율성이 뛰어나다. 마지막으로, 다양한 사례 연구를 통해 RC2가 실제 모달 갈등 상황을 어떻게 해결하는지 시각화했으며, 모델이 텍스트와 이미지 사이에서 상호 보완적인 정보를 활용해 더 정확하고 일관된 답을 도출하는 과정을 보여준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기