다중언어·다중작업 LLM 환각 벤치마크 Halluverse M³
초록
Halluverse-M³는 영어, 아랍어, 힌디어, 터키어 네 언어와 질문‑응답·대화 요약 두 작업을 아우르는 4 천여 개 샘플을 제공한다. 각 샘플은 원본 정답·요약과 하나의 인위적 환각을 삽입한 변형문으로 구성되며, 환각 유형을 ‘엔터티’, ‘관계’, ‘문장’ 세 단계로 세분화한다. 자동 편집·인간 검증 과정을 거쳐 높은 일관성과 라벨 정확성을 확보했으며, 최신 오픈소스·상용 LLM들의 환각 탐지 성능을 다언어·다작업 관점에서 평가한다. 결과는 질문‑응답이 요약보다 탐지하기 쉬우며, 영어에서 가장 높은 정확도를 보이지만 힌디어 등 저자원 언어에서는 성능이 급격히 떨어진다는 점을 강조한다.
상세 분석
본 논문은 LLM의 환각 문제를 다언어·다작업 환경에서 체계적으로 연구하기 위한 데이터셋 ‘Halluverse‑M³’를 제안한다. 먼저 기존 환각 데이터셋이 영어 중심이며 이진 라벨링에 머무는 한계를 짚고, 환각을 ‘엔터티 수준’, ‘관계 수준’, ‘문장 수준’으로 구분함으로써 보다 미세한 오류 유형을 포착한다는 점이 핵심이다. 데이터 구축 파이프라인은 네 단계로 이루어진다. (1) 질문‑응답은 Lin et al. (2022)의 장문 QA 데이터, 대화 요약은 DialogSum을 원본으로 사용해 사실 기반 정답·요약을 확보한다. (2) 비영어 데이터는 구글 번역 API로 자동 번역한 뒤, 각 언어 원어민이 문법·의미 일관성을 검수하여 저품질 번역을 배제한다. (3) 환각 삽입은 사전 정의된 프로프트를 이용해 LLM이 자동으로 엔터티 교체, 관계 변형, 완전 허위 문장 삽입을 수행하도록 설계했으며, 각 샘플에 하나의 환각만을 삽입하도록 제어한다. (4) 인간 주석자는 두 명의 원어민이 독립적으로 라벨링하고, Cohen’s κ = 0.83 ~ 0.79 수준의 높은 합의를 달성했다.
형식적 정의에서는 텍스트를 원자적 명제 집합 P(y)로 표현하고, ‘reference‑consistency’를 P(y)⊆P(y*) 로 정의한다. 환각은 P(y)∖P(y*)에 포함되는 새로운 명제 p⁺ 로 모델링되며, p⁺와 기존 명제 간 정렬 관계 Align을 통해 엔터티·관계·문장 수준을 구분한다. 이러한 수학적 프레임워크는 평가 메트릭을 명확히 하고, 탐지 모델이 ‘어떤 유형의 환각이 발생했는가’를 직접 예측하도록 설계한다.
실험에서는 Llama 2‑13B, Mistral‑7B, GPT‑4 등 7개 모델을 평가했으며, 전반적으로 질문‑응답에서 F1 ≈ 0.78 ~ 0.84, 대화 요약에서는 0.61 ~ 0.73 수준으로 차이가 났다. 언어별로는 영어가 0.86 ~ 0.91, 아랍어가 0.78 ~ 0.84, 터키어가 0.73 ~ 0.80, 힌디어가 0.61 ~ 0.68 로 성능이 급격히 감소한다. 특히 문장‑수준 환각은 모든 모델에서 가장 낮은 탐지율을 보였으며, 이는 기존 탐지 기법이 문맥 전체를 파악하기보다局部 엔터티·관계에 의존하는 경향을 드러낸다.
한계점으로는 번역 단계에서 발생할 수 있는 의미 손실, 자동 환각 생성 시 LLM의 편향이 라벨에 스며들 가능성, 그리고 현재는 4개 언어와 2개 작업에 국한된 점을 들 수 있다. 향후 연구에서는 더 많은 저자원 언어와 의료·법률 등 도메인‑특화 작업을 포함하고, 인간‑피드백 기반의 환각 완화 기법을 데이터셋에 통합하는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기