멀티턴 RAG 대화의 열린 과제 탐색을 위한 MTRAG UN 벤치마크

본 논문은 멀티턴 Retrieval‑Augmented Generation(RAG) 시스템이 직면한 실질적인 문제를 규명하고, 이를 위한 표준 벤치마크인 MTRAG‑UN을 제시한다. 서론에서는 현재 LLM 기반 RAG가 단일 질문‑응답 시나리오에서는 높은 성능을 보이지만, 다중 턴 대화에서는 질문의 불명확성, 외부 지식의 부족, 컨텍스트 의존성 등 복합적인 어려움에 직면한다는 점을 강조한다. 기존 벤치마크는 주로 정답이 명확히 정의된 QA 형식에 국한돼 있어, 실제 대화 환경에서 발생하는 “답변 불가”, “질문 불명확”, “컨텍스트 의존성” 등을 충분히 평가하지 못한다는 한계를 지적한다. 데이터 구축 파트에서는 6개 도메인(의료, 법률, 금융, 기술 지원, 교육, 엔터테인먼트)을 선정하고, 각 도메인별 전문가와 일반 사용자를 대상으로 인터뷰와 설문을 진행해 실제 사용 사례를 수집했다. 수집된 원시 대화는 2,800여 개의 턴으로 구성되었으며, 이를 666개의 작업(task)으로 정제하였다. 각 작업은 3~5개의 턴으로 이루어지고, 질문‑응답 쌍마다 네 가지 오류 유형을 라벨링한다. UNanswerable는 외부 지식이 존재하지 않거나 질문 자체가 모순될 때, UNderspecified는 질문이 필요한 세부 정보를 제공하지 않을 때, NONstandalone은 현재 턴이 이전 턴에 과도히 의존하지만 독립적인 정보가 부족할 때, UNclear는 생성된 응답이 의미적으로 모호하거나 불완전할 때를 의미한다. 베이스라인 실험에서는 전통적 BM25, dense retriever(DPR, ColBERT), 그리고 최신 RAG 모델(RAG‑Fusion, FiD, Llama‑2‑70B) 등을 조합해 성능을 평가했다. 평가 지표는 정확도, F1, BLEU 외에 Answer‑Consistency Score와 각 오류 유형별 성공률을 추가하였다. 결과는 전반적으로 기존 모델들이 UNanswerable와 UNclear 상황에서 현저히 낮은 성능을 보였으며, 특히 NONstandalone 유형에서는 이전 턴의 컨텍스트를 제대로 활용하지 못해 평균 0.38의 일관성 점수만 기록했다. 오류 분석에서는 세 가지 주요 원인을 도출한다. 첫째, 검색 단계에서 질문이 불완전하면 적절한 문서를 찾지 못해 생성 단계가 잘못된 근거 위에 서게 된다. 둘째, 생성 단계에서 “답변 포기” 메커니즘이 부재해, 모델이 무조건 답변을 생성하려다 품질이 저하된다. 셋째, 다중 턴 대화에서 컨텍스트를 지속적으로 업데이트하고 기억하는 구조가 부족해, 이전 정보와 현재 질문 사이의 연결 고리를 놓친다. 이러한 문제는 실제 서비스에서 사용자 신뢰를 손상시키고, 법적·윤리적 위험을 초래할 수 있다. 논문은 향후 연구 방향으로 (1) 불확실성 인식 및 “답변 포기” 전략 도입, (2) 질문 재구성 및 명확화 인터랙션 설계, (3) 검색·생성 단계의 컨텍스트‑지식 융합 모델 개발을 제시한다. 또한, MTRAG‑UN 데이터와 평가 스크립트가 공개되어 있어, 연구자들이 동일한 기준에서 모델을 비교하고, 새로운 오류 유형을 추가하거나 도메인을 확장하는 것이 가능하다. 결론에서는 MTRAG‑UN이 멀티턴 RAG 연구에 필요한 현실적인 도전 과제를 제공함을 강조하고, 공개된 벤치마크가 커뮤니티 기반의 지속적인 개선과 표준화에 기여할 것으로 기대한다.

멀티턴 RAG 대화의 열린 과제 탐색을 위한 MTRAG UN 벤치마크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기