논증표현 커버리지 분석으로 본 제로샷 장문 요약 평가
초록
본 논문은 법률 의견과 과학 논문 등 고위험 분야에서 장문 요약이 핵심 논증 역할을 얼마나 보존하는지를 평가하기 위해 ‘Argument Representation Coverage (ARC)’라는 새로운 프레임워크를 제안한다. ARC는 논증 역할을 원자적 사실로 분해하고, 각 사실이 요약에 포함되었는지 여부를 LLM 판정기로 판단해 역할별·전체 요약 커버리지를 정량화한다. 8개의 오픈‑웨이트 LLM을 두 도메인에 적용한 결과, 모델들은 일부 핵심 역할을 포착하지만, 특히 논증이 문서 전반에 희박하게 분포할 때 중요한 정보를 누락하는 경향이 드러났다. 또한, 문서 위치 편향과 역할별 선호도가 커버리지에 미치는 영향을 정량적으로 밝혀 향후 정렬 및 프롬프트 설계에 실용적인 가이드를 제공한다.
상세 분석
ARC 프레임워크는 기존 요약 평가 지표가 갖는 ‘전반적 유사도’와 ‘사실성’ 사이의 모호성을 해소하기 위해 두 단계의 세분화된 평가 절차를 도입한다. 첫 번째 단계에서는 사전 정의된 논증 역할(예: Issue, Reason, Conclusion)을 GPT‑4‑o와 같은 강력한 LLM을 활용해 원자적 사실 집합(Facts)으로 자동 분해한다. 이때 사실 생성 과정에서 과잉 생성된 사실을 억제하기 위해 역할‑사실 간 함의(entailment) 검증을 수행한다. 두 번째 단계에서는 생성된 요약 S에 대해 각 사실 f_i가 정확히 포함되었는지를 δ(f_i, S) = 1/0으로 라벨링한다. 라벨링은 동일한 LLM 판정기를 사용해 ‘지원’, ‘누락’, ‘비사실적’ 세 가지 오류 유형을 구분하도록 프롬프트를 설계함으로써, 누락과 허위 정보가 요약 품질에 미치는 영향을 별도로 측정한다. 역할‑레벨 커버리지 ARC_role(r, S)는 해당 역할에 속한 모든 사실의 평균 δ값으로 정의되고, 전체 요약 커버리지 ARC_score(S)는 모든 역할에 대한 ARC_role의 평균으로 산출된다.
실험에서는 캐나다 법률 데이터베이스(CANLII)와 과학 논문 데이터셋(DRI)을 각각 1,049개와 40개의 문서에 적용하였다. 두 데이터셋 모두 논증 역할이 문서 전체에 고르게 분포하지 않으며, 특히 법률 문서는 전체 텍스트의 7.66%만이 논증 역할로 라벨링되어 있지만 요약에서는 66.51%가 차지한다는 ‘희소성’ 특성을 보인다. 반면 과학 문서는 논증 역할이 74.14% 정도 차지해 선택적 압축이 주요 과제로 부각된다.
ARC를 이용한 정량적 분석 결과, 8개 오픈‑웨이트 LLM 중 가장 높은 ARC_score를 기록한 모델은 Llama‑3.1‑8B‑Instruct(τ = 0.463, ρ = 0.610)였으며, 이는 기존 ROUGE·BERTScore와 비교해 현저히 높은 상관관계를 보였다(ROUGE‑1 τ = 0.391, ρ = 0.539). 특히, FactScore와 같은 기존 사실‑기반 지표는 전체 커버리지는 잡아내지만 역할‑별 편향을 드러내는 데 한계가 있었으며, ARC는 역할‑별 누락 비율을 시각화해 ‘Issue’는 평균 78% 커버리지, ‘Reason’는 62% 등 역할마다 차별적인 성능을 명확히 드러냈다.
위치 편향 분석에서는 문서 앞부분과 끝부분에 위치한 논증이 요약에 포함될 확률이 중간 부분에 비해 1.8배 높게 나타났으며, 이는 기존 연구에서 보고된 ‘U‑shaped’ 위치 편향과 일치한다. 또한, 역할‑선호 편향을 정량화한 ‘bias score’를 통해 LLM이 ‘Conclusion’과 ‘Issue’는 비교적 잘 보존하지만 ‘Reason’은 일관되게 낮은 커버리지를 보임을 확인했다. 이러한 편향은 모델이 ‘핵심 결론’에 초점을 맞추는 경향과, 중간 단계의 논리 전개를 생략하는 경향이 결합된 결과로 해석된다.
ARC 프레임워크는 평가의 재현성을 위해 전체 파이프라인을 오픈소스로 공개했으며, 사실 분해·판정 단계에서 사용된 프롬프트와 파라미터 설정을 상세히 기술했다. 이는 향후 다른 도메인(예: 의료 기록, 정책 문서)에도 동일한 방법론을 적용해 논증 기반 요약 품질을 정량화할 수 있는 기반을 제공한다. 궁극적으로 ARC는 “요약이 얼마나 완전하게 핵심 논증을 전달하는가”라는 질문에 대한 명확한 답을 제시함으로써, 고위험 분야에서 LLM 기반 자동 요약 시스템의 신뢰성을 향상시키는 실용적인 도구로 자리매김한다.
댓글 및 학술 토론
Loading comments...
의견 남기기