시각적 추론 신뢰성을 높이는 PaLMR: 프로세스 정렬 기반 멀티모달 학습
초록
PaLMR은 최종 정답만을 보상하는 기존 강화학습 방식의 한계를 넘어, 시각적 근거와 일치하는 추론 과정을 동시에 정렬한다. 인식‑정렬 데이터 레이어와 프로세스‑정렬 최적화 레이어를 결합해 시각‑텍스트 일관성을 계층적 보상으로 제공하고, V‑GRPO라는 비전‑가이드드 정책 최적화를 통해 시각적 사실에 기반한 체인‑오브‑생각을 학습한다. 실험 결과, HallusionBench에서 현존 최고 수준의 hallucination 감소와 MMMU·MathVista·MathVerse 등 다중 벤치마크에서 경쟁력 있는 정확도를 동시에 달성한다.
상세 분석
본 논문은 멀티모달 대형 언어 모델(MLLM)에서 “프로세스 수준의 hallucination”이라는 새로운 문제를 정의한다. 기존 RL 기반 보상 설계는 정답 여부만을 평가하므로, 모델이 시각적 증거를 오해하면서도 정답을 맞출 경우를 억제하지 못한다. PaLMR은 이 문제를 두 단계로 해결한다. 첫 번째는 Perception‑Aligned Data Layer(PaDLayer)로, FineVision 등 1.5K 규모의 다양한 도메인 데이터를 균등 샘플링한 뒤, 학습 가능성 기반 필터링을 적용해 불안정하거나 과도히 쉬운 샘플을 제거한다. 이후 Gemini를 활용해 이미지에 대한 구조화된 의사‑정답(pseudo‑GT)을 생성하고, 객체·관계·속성을 명시적으로 기술한다. 이렇게 만든 시각적 사실 집합은 후속 단계에서 “시각적 일관성 점수”를 계산하는 근거가 된다.
두 번째는 Process‑Aligned Optimization Layer(PaOLayer)이다. 여기서는 기존 GRPO(Group Relative Policy Optimization)에 시각‑인식 보상을 통합한 V‑GRPO를 제안한다. 모델이 생성한 체인‑오브‑생각(
실험에서는 Qwen2.5‑VL‑7B에 PaLMR을 적용했으며, HallusionBench에서 hallucination 비율을 기존 모델 대비 45% 이상 감소시켰다. 동시에 MMMU, MathVista, MathVerse와 같은 정답 정확도 중심 벤치마크에서는 성능 저하 없이 유지하거나 소폭 향상하였다. 특히, 시각적 근거를 명시적으로 언급한 체인‑오브‑생각이 정답과 일치하지 않을 경우 보상이 크게 감소함을 보여, 모델이 “시각적 사실을 무시하고 텍스트만으로 추론”하는 경향을 효과적으로 억제한다는 점이 강조된다.
한계점으로는 pseudo‑GT 생성에 LLM 의존도가 높아, 복잡한 장면(예: 3D 깊이 관계)에서는 라벨링 오류가 발생할 가능성이 있다. 또한, V‑GRPO의 이진 시각 점수는 미세한 부분 일관성을 포착하기 어려워, 향후 연속형 신뢰도 점수나 인간‑피드백 기반 보상과의 결합이 필요하다.
요약하면, PaLMR은 “정답‑중심” 강화학습을 “과정‑중심”으로 전환함으로써 멀티모달 모델의 해석 가능성과 신뢰성을 크게 향상시킨다.
댓글 및 학술 토론
Loading comments...
의견 남기기