두 단계 강화 학습으로 설명 가능한 멀티모달 검색‑증강 생성

본 논문은 멀티모달 검색‑증강 생성(MMRAG) 시스템에 강화학습을 도입해, 검색 단계와 응답 생성 단계 모두에서 설명 가능한 추론 과정을 학습하도록 설계하였다. 첫 번째 단계에서는 규칙 기반 보상을 이용해 거친 점별 순위 매김으로 명백히 관련 없는 멀티모달 문서를 걸러내고, 두 번째 단계에서는 추론 기반 보상을 통해 리스트‑와이즈 순위와 답변 생성을 동시

두 단계 강화 학습으로 설명 가능한 멀티모달 검색‑증강 생성

초록

본 논문은 멀티모달 검색‑증강 생성(MMRAG) 시스템에 강화학습을 도입해, 검색 단계와 응답 생성 단계 모두에서 설명 가능한 추론 과정을 학습하도록 설계하였다. 첫 번째 단계에서는 규칙 기반 보상을 이용해 거친 점별 순위 매김으로 명백히 관련 없는 멀티모달 문서를 걸러내고, 두 번째 단계에서는 추론 기반 보상을 통해 리스트‑와이즈 순위와 답변 생성을 동시에 최적화한다. 제안 방법은 WebQA와 MultimodalQA 벤치마크에서 최첨단 성능을 달성했으며, 다양한 Ablation 실험을 통해 각 구성 요소의 효과를 입증한다.

상세 요약

MMRAG은 외부 멀티모달 지식을 검색해 LLM에 주입함으로써 사실성(factuality)과 복합 질문 처리 능력을 크게 향상시킨다. 그러나 기존 모델은 “왜 이 문서를 선택했는가”, “어떤 근거로 답을 도출했는가”와 같은 메타 정보를 제공하지 못해, 특히 신뢰도가 중요한 의료·법률 등 분야에서 활용이 제한된다. 논문은 이러한 설명 가능성 결여를 강화학습(RL)이라는 프레임워크로 해결한다는 점에서 혁신적이다.

첫 번째 단계인 Rule‑Based Reinforcement Fine‑tuning(RRFT)은 간단한 규칙(예: 이미지‑텍스트 매칭 점수, 텍스트 유사도 임계값)을 보상 함수에 직접 삽입한다. 이 보상은 각 문서에 대해 독립적으로 계산되며, “점별(point‑wise) 순위 매김”이라는 형태로 모델이 명백히 부적절한 문서를 빠르게 배제하도록 유도한다. 규칙 기반 보상은 학습 초기의 불안정성을 완화하고, 대규모 멀티모달 코퍼스에서 연산 효율성을 확보한다는 실용적 장점이 있다.

두 번째 단계인 Reasoning‑Based Reinforcement Fine‑tuning(RRFT)은 보다 정교한 리스트‑와이즈(list‑wise) 보상을 설계한다. 여기서는 검색된 문서 집합 전체와 최종 생성된 답변을 동시에 고려한다. 구체적으로, (1) 검색 순위와 정답 문서 간의 NDCG·Recall·Precision을 보상으로 사용하고, (2) 생성된 답변이 참조 답변과 의미적으로 일치하는지를 평가하는 ROUGE·BLEU·BERTScore와 같은 텍스트 메트릭을 결합한다. 또한, “추론 단계 설명”을 텍스트 형태로 출력하도록 프롬프트를 설계하고, 이 설명이 정답 문서와 얼마나 일관되는지를 추가 보상으로 반영한다. 이렇게 하면 모델은 “문서를 왜 선택했는가”와 “그 문서를 근거로 어떻게 답을 도출했는가”를 동시에 학습하게 된다.

기술적 핵심은 두 단계 모두 PPO(Proximal Policy Optimization) 기반의 정책 업데이트를 사용한다는 점이다. 첫 단계에서는 정책이 문서 선택 확률을 출력하고, 두 단계에서는 정책이 문서 선택과 동시에 텍스트 생성 토큰을 출력한다. 정책 네트워크는 멀티모달 인코더(이미지와 텍스트를 결합한 ViLT 혹은 CLIP‑based encoder)와 LLM(예: LLaMA‑2) 디코더를 공유함으로써 파라미터 효율성을 유지한다.

실험에서는 WebQA(웹 기반 이미지·텍스트 QA)와 MultimodalQA(다중 모달 복합 질문) 두 데이터셋에 대해 기존 SOTA인 REtrieval‑Augmented Generation(RAG) 기반 모델과 비교한다. 제안 모델은 정확도(Exact Match)와 F1 점수에서 각각 3~5%p 상승했으며, 특히 “설명 가능성”을 정량화한 인간 평가에서 20% 이상 높은 점수를 기록한다. Ablation 실험은 (a) 규칙 기반 보상 제거, (b) 리스트‑와이즈 보상 제거, (c) 설명 출력 없이 학습한 경우 각각 성능이 크게 떨어짐을 보여, 두 단계 보상의 상호 보완성을 입증한다.

이 논문은 강화학습을 통해 멀티모달 검색과 생성 사이의 연쇄적 추론 과정을 명시적으로 모델링함으로써, 기존 블랙박스 RAG 시스템의 투명성을 크게 향상시켰다. 또한, 규칙 기반과 추론 기반 보상을 단계적으로 도입하는 설계는 학습 안정성 및 효율성을 동시에 달성한다는 실용적 교훈을 제공한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...