자동 생성 사실성 벤치마크 프레임워크 IRB
초록
IRB는 위키피디아 인용 문장을 사실 스캐폴드로 활용하고, 지식 그래프 기반 알고리즘 스캐폴드를 통해 질문‑답 쌍을 자동으로 생성해 RAG 시스템의 사실성 평가 벤치마크를 만든다. 생성된 IRB1K는 최신 모델들의 폐쇄형 성능을 크게 저하시키며, 추론 모델이 더 견고하고, 검색 성능 향상이 전체 정확도 개선에 가장 효율적임을 보여준다.
상세 분석
본 논문은 RAG(Retrieval‑Augmented Generation) 시스템의 사실성 평가를 위한 정적 벤치마크가 빠르게 포화되고, 인간 주석 비용이 크게 소모되는 문제점을 인식하고, 완전 자동화된 벤치마크 생성 프레임워크 IRB를 제안한다. IRB는 두 단계의 스캐폴드, 즉 사실 스캐폴드와 알고리즘 스캐폴드를 결합한다. 사실 스캐폴드는 위키피디아 기사에서 인간이 직접 인용한 문장을 추출하고, 각 인용 구문을 문법적으로 완전한 문장으로 필터링한 뒤, 다중 인용이 포함된 경우 각각을 독립적인 키포인트로 분리한다. 이때 LLM을 이용해 키포인트를 문맥에서 독립시켜(De‑contextualization) 명확하고 검증 가능한 형태로 만든다. 각 키포인트는 원본 인용 URL을 통해 수집된 문서와 연결되며, LLM 기반의 Groundedness Check를 통해 실제 문서 내용과 일치하는지 검증한다. 검증을 통과한 키포인트만이 최종 사실 집합에 포함된다.
알고리즘 스캐폴드는 검증된 사실을 기반으로 질문‑답(QA) 쌍을 생성한다. 먼저 사실을 지식 그래프(KG) 형태(헤드‑관계‑테일 트리플)로 변환하고, 그래프 커버리지를 확인해 충분히 정보를 포함하는지 판단한다. 이후 KG를 마스킹·변형 단계에서 세 가지 질문 유형을 만든다: (1) 단일 홉 – 하나의 노드를 마스크해 정답을 설정, (2) 다중 홉 – 두 개의 단일 홉 그래프를 결합해 두 단계 추론을 요구, (3) 거짓 전제 – 노드명을 규칙 기반으로 교체·왜곡해 잘못된 전제를 삽입. 마스크된 노드와 변형된 노드에 대해 패러프레이징을 적용해 표현 다양성을 높이고, 정답 매칭을 회피하도록 설계한다. 마지막으로 단계별 프롬프트를 사용해 마스크된 KG를 자연어 질문으로 변환하고, 답변은 원본 키포인트에서 직접 추출한다.
이 파이프라인을 통해 생성된 IRB1K 벤치마크는 1,000여 개의 질문을 포함하며, 질문 속성(주제, 홉 수, 거짓 전제 여부 등)이 메타데이터로 제공된다. 평가에서는 최신 폐쇄형 LLM(예: GPT‑4, Claude‑2)과 다양한 검색 엔진(FAISS, BM25 등)을 조합한 RAG 시스템을 시험했으며, 결과는 다음과 같다. (1) 폐쇄형 LLM은 IRB1K에서 기존 정적 벤치마크 대비 정확도가 크게 감소해 새로운 난이도를 제공한다. (2) 추론 전용 모델(Chain‑of‑Thought 기반)은 거짓 전제와 검색 오류 상황에서도 비교적 높은 견고성을 보였다. (3) 검색 성능이 전체 시스템 정확도에 가장 큰 영향을 미치며, 고성능 검색기 도입이 비용 대비 효율적인 개선책임을 확인했다.
논문의 주요 기여는 (1) 인간 인용을 사실 스캐폴드로 활용해 자동화된 고품질 사실 집합을 구축한 점, (2) KG‑기반 마스킹·변형으로 질문 유형과 난이도를 정밀 제어한 점, (3) 생성된 벤치마크와 평가 결과를 공개해 향후 RAG 연구에 재현 가능성을 제공한 점이다. 한계로는 현재 텍스트‑전용 검증 파이프라인이라 멀티모달 증거(영상·오디오)는 다루지 못하고, 자동화 과정에서 여전히 일부 비정상적인 키포인트가 남을 수 있다는 점을 들었다. 향후 작업에서는 멀티모달 증거 통합과 더 정교한 자동 검증 모델을 도입해 품질을 향상시킬 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기