페르시어 이슬람 질문답변을 위한 신뢰성 높은 고급 RAG 시스템

초록

FARSIQA는 페르시어 사용자를 위한 이슬람 질의응답에 특화된 RAG 시스템으로, 복잡한 다중 단계 질문을 자동으로 분해·재조합하고, 증거 충분성을 지속적으로 평가해 반복적으로 답변을 정제한다. 100만 건 이상의 권위 있는 이슬람 문서를 기반으로 학습했으며, IslamicPCQA 벤치마크에서 부정 거부율 97 %와 정답 정확도 74.3 %를 달성해 기존 모델 대비 큰 폭의 성능 향상을 보였다.

상세 요약

본 논문은 대형 언어 모델(LLM)의 환각 현상과 신뢰성 결여가 종교와 같이 민감한 분야에서 치명적 문제임을 지적하고, 특히 페르시어 사용 무슬림 커뮤니티를 대상으로 한 질의응답 시스템의 필요성을 강조한다. 기존 RAG(Retrieval‑Augmented Generation) 구조는 단일 패스 검색·생성 흐름에 머물러 복합 질문, 다중 홉 추론, 증거 통합 등에 한계를 보였다. 이를 극복하기 위해 저자들은 FAIR‑RAG(Faithful, Adaptive, Iterative Refinement)라는 새로운 아키텍처를 설계하였다. FAIR‑RAG는 크게 네 가지 핵심 메커니즘으로 구성된다. 첫째, 질문 분해 모듈은 복합 질문을 의미론적 단위로 자동 분할하고, 각 서브쿼리를 독립적으로 검색한다. 이 과정에서 질문의 논리 구조(조건·인과·비교 등)를 파악하기 위해 트리 구조 파싱과 의도 분류기를 결합한다. 둘째, 증거 충분성 평가기는 검색된 문서 집합이 목표 답변을 뒷받침하기에 충분한지를 확률적 신뢰 점수로 판단한다. 여기서는 문서 간 연관성 그래프와 LLM 기반 사실 검증 모델을 활용해, 부족한 경우 추가 검색을 트리거한다. 셋째, 반복적 정제 루프는 “검색 → 생성 → 검증 → 재검색” 사이클을 여러 차례 수행함으로써 초기 답변의 오류를 단계적으로 교정한다. 특히, 생성 단계에서 LLM이 만든 근거 문장을 메타데이터와 함께 저장하고, 검증 단계에서 이 근거가 원본 문서와 일치하는지 교차 검증한다. 넷째, 자기 교정 메커니즘은 생성된 답변이 신뢰 점수 임계값 이하일 경우, 질문을 재구성하거나 추가 서브쿼리를 생성해 정보 격차를 메운다. 이러한 적응형 흐름은 복잡한 다중 홉 질문에서도 일관된 증거 기반 답변을 도출한다는 점에서 기존 단일 패스 RAG와 차별화된다.

데이터 측면에서 저자들은 1 백만 건 이상의 권위 있는 이슬람 문서(꾸란, 하디스, 이슬람 법전, 학술 논문 등)를 수집·정제하고, 페르시어 메타데이터와 주제 태깅을 수행했다. 이 지식베이스는 고품질 검색 인덱스로 활용되며, 문서별 신뢰도 등급을 부여해 검색 단계에서 가중치를 조정한다. 평가에는 IslamicPCQA라는 복합 질문 중심 벤치마크를 사용했으며, 두 가지 핵심 지표인 Negative Rejection(부정 거부율)과 Answer Correctness(정답 정확도)를 제시한다. FARSIQA는 부정 거부율 97 %를 기록해 기존 최첨단 모델 대비 40 포인트 상승했으며, 정답 정확도 74.3 %를 달성해 복합 질문에 대한 실용적 신뢰성을 입증했다.

기술적 강점으로는 (1) 질문을 동적으로 분해·재구성하는 적응형 파이프라인, (2) 증거 충분성을 정량화해 반복 검색을 유도하는 메커니즘, (3) 생성‑검증‑재검색 루프를 통한 오류 누적 방지, (4) 대규모 권위 문서베이스와의 긴밀한 연계가 있다. 반면 한계점으로는 (가) 반복 루프가 늘어날수록 연산 비용과 응답 지연이 증가한다는 점, (나) 현재는 페르시어와 이슬람 도메인에 특화돼 다른 언어·문화로의 일반화가 미흡하다는 점, (다) 증거 충분성 평가에 사용되는 검증 모델이 아직 완전한 사실 검증을 보장하지 못한다는 점을 들 수 있다. 향후 연구에서는 경량화된 루프 제어 전략, 다언어·다문화 확장, 그리고 보다 정교한 사실 검증 모델 통합을 통해 시스템의 실시간 서비스 가능성과 보편성을 높일 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)