주석 없이 강화학습으로 쿼리 재작성하는 RL‑QR 프레임워크
초록
RL‑QR은 인덱스와 정렬된 합성 쿼리를 이용해 검색 점수를 직접 보상으로 활용함으로써 인간 주석 없이도 쿼리 재작성 모델을 강화학습으로 학습한다. 텍스트와 시각 문서 모두에 적용 가능하며, MTEB VIDORE V2에서 lexical 검색 시 3.9배, semantic 검색 시 3.5배, MS MARCO v2.1 및 산업 데이터에서 5‑10% 정도의 Recall 향상을 달성한다.
상세 분석
본 논문은 Retrieval‑Augmented Generation(RAG) 시스템에서 쿼리 품질이 전체 성능에 미치는 영향을 강조하고, 기존 방법들이 인간 주석에 크게 의존한다는 한계를 지적한다. 이를 극복하기 위해 제안된 RL‑QR은 두 단계로 구성된다. 첫 번째 단계는 “인덱스‑정렬 쿼리 합성”으로, 대규모 언어 모델(예: Qwen3‑VL‑235B‑A22B)을 프롬프트 기반으로 활용해 각 인덱스에 대해 답변이 반드시 해당 코퍼스에 의존하도록 설계된 질문‑답변 쌍을 자동 생성한다. 이때 생성된 질문은 인덱스와 직접 매핑되므로, 검색 엔진이 반환한 문서와 질문 사이의 연관성을 검색 점수(NDCG)만으로 검증할 수 있다. 두 번째 단계는 강화학습이다. 쿼리 재작성기 πθ는 합성된 원본 질문을 입력받아 변형된 쿼리 y를 출력하고, 검색 엔진 R에 전달한다. 검색 결과에 대해 NDCG를 직접 보상 r_retrieval으로 사용하고, 형식 오류나 불필요한 토큰에 대해서는 r_penalty를 부여한다. 전체 보상은 λ1·r_retrieval + λ2·r_penalty 로 가중합한다. 정책 업데이트는 PPO 기반의 그룹화된 보상(그룹 내 토큰별 advantage)으로 수행되며, 기존 연구가 문서‑답변 혹은 문서‑쿼리‑정답 삼중 관계에 인간 라벨을 요구하던 것과 달리, 여기서는 순수히 검색 점수만으로 학습이 가능하다.
기술적 핵심은 (1) 인덱스‑정렬 합성 쿼리 생성이 “정답이 반드시 해당 인덱스에 존재한다”는 강한 제약을 부여해 보상의 검증 가능성을 확보한다는 점, (2) 검색 엔진 종류(lexical BM25, dense semantic, 멀티모달 이미지‑임베딩)와 무관하게 동일한 강화학습 파이프라인을 적용할 수 있도록 인덱스‑독립적인 보상 설계가 이루어졌다는 점이다. 또한, 각 인덱스마다 별도의 재작성기를 학습하도록 제안함으로써, 서로 다른 검색 특성(예: BM25는 키워드 반복에 민감, dense retriever는 의미적 유사성에 민감)을 효율적으로 반영한다.
실험에서는 세 가지 사내 RAG 파이프라인(lexical, semantic, multimodal)을 구축하고, 각각에 대해 RL‑QR을 적용하였다. 텍스트‑전용 벤치마크인 MS MARCO v2.1(1% 샘플)에서는 NDCG@3 기준 5‑10% 향상을 기록했으며, 시각 문서 벤치마크인 MTEB VIDORE V2에서는 lexical 검색에서 3.9배, semantic 검색에서 3.5배의 Recall 증가를 달성했다. 내부 산업 데이터에서도 일관된 성능 개선이 확인되었다. 이러한 결과는 인간 주석 없이도 다양한 도메인·모달리티에 걸쳐 쿼리 재작성기의 일반화 가능성을 입증한다.
한계점으로는 (1) 합성 쿼리의 품질이 LLM의 프롬프트 설계에 크게 좌우된다는 점, (2) 현재는 인덱스당 별도 재작성기 학습이 필요해 파라미터 효율성이 떨어질 수 있다는 점, (3) 검색 엔진 자체의 오류(예: 멀티모달 인덱스에서 이미지‑텍스트 정합성 부족)가 보상 신호에 직접 영향을 미쳐 학습 안정성을 저해할 가능성이 있다. 향후 연구에서는 합성 쿼리의 자동 품질 평가, 다인덱스 공유 재작성기 설계, 그리고 보상 신호에 대한 노이즈 완화 기법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기