FactSim: 의견 요약을 위한 사실 검증 메트릭
초록
FactSim은 제품 리뷰와 같은 다수의 의견 텍스트에서 생성된 요약문의 사실 일관성을 자동으로 평가하는 새로운 메트릭이다. LLM 기반 프롬프트 엔지니어링으로 “사실 튜플”(주제, 속성) 을 추출하고, 임베딩 유사도를 이용해 커버리지와 일관성을 측정한다. 인간 평가와 높은 상관관계를 보이며, 패러프레이징·부정·확장된 주장에도 강인함을 보인다.
상세 분석
본 논문은 기존의 n‑gram 기반 ROUGE·BLEU와 달리, 의견 요약에서 핵심이 되는 “다수 의견의 합의”를 정량화하려는 시도를 제시한다. 핵심 아이디어는 리뷰와 요약 양쪽에서 사실 튜플을 추출하고, 사전 학습된 인코더(예: Sentence‑BERT)로 임베딩한 뒤 코사인 유사도로 매핑한다는 점이다. 두 가지 점수를 정의한다. 첫 번째 f_V는 리뷰에 존재하는 모든 튜플이 요약에 얼마나 잘 반영되는지를 평균 최대 유사도로 측정한다. 여기서는 동일 튜플이 여러 리뷰에 등장할 경우 가중치가 높아져, 다수 의견이 반영된 경우 높은 점수를 부여한다. 두 번째 f_N은 요약에 포함된 튜플이 원본 리뷰 중 최소 하나와 얼마나 일치하는지를 평가한다. 이 두 점수의 조화 평균을 FactSim 점수로 채택함으로써 “커버리지”(리뷰 사실을 놓치지 않음)와 “일관성”(요약이 실제 리뷰와 모순되지 않음) 두 축을 동시에 고려한다.
사실 튜플 추출 단계에서는 GPT‑4와 같은 대형 언어 모델을 프롬프트 엔지니어링해 “(주제, 속성)” 형태로 변환한다. 프롬프트는 주제는 한 단어, 속성도 한 단어로 제한해 파라프레이징·부정 처리 능력을 활용한다. 예를 들어 “not fast at all”을 “slow”으로 변환함으로써 부정 표현을 긍정적 속성으로 일관되게 매핑한다. 이는 기존 규칙 기반 추출보다 높은 유연성을 제공한다.
실험에서는 OpinSummEval 데이터셋(100 샘플, 14 요약 모델)에서 FactSim이 인간 평점과 가장 높은 피어슨/스피어먼 상관을 기록했으며, 특히 “aspect relevance”와 “self‑coherence” 항목에서 기존 메트릭을 크게 앞섰다. 또한 합성 실험을 통해 부정·패러프레이징·텍스트 확장이 포함된 문장에서도 정확히 동일한 점수를 부여함을 보였다.
한계점으로는 (1) 사실 튜플 추출이 LLM에 크게 의존하므로 모델 오류가 직접 메트릭에 전이될 위험이 있다. (2) 현재는 속성·주제 한 단어 제한으로 복합적인 의견(예: “배터리 수명이 짧고 충전이 빠름”)을 완전히 포착하지 못한다. (3) 사실 일관성만을 평가하므로, 실제 사실 여부(외부 진실성) 검증은 다루지 않는다. 향후 연구에서는 다단어 속성, 외부 지식 베이스 연계, 그리고 튜플 추출의 신뢰도 추정 등을 통해 메트릭을 보강할 여지가 있다.
전반적으로 FactSim은 의견 요약의 특수성을 반영한, 설명 가능하고 자동화된 평가 프레임워크로서, LLM 기반 요약 시스템의 품질 관리와 인간 평가 비용 절감에 실질적인 기여를 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기