법률 장문 요약을 위한 Gavel: 체크리스트와 에이전트 기반 평가 프레임워크
초록
Gavel‑Ref는 26개 항목의 체크리스트와 잔여 사실·작성 스타일 평가를 결합한 법률 장문 요약 평가 체계이며, 12개 최신 LLM을 100건(32K‑512K 토큰) 사례에 적용해 평균 50점 수준의 성능을 확인했다. 또한 Gavel‑Agent는 6가지 도구를 활용해 문서 탐색·체크리스트 추출을 자동화, 토큰 사용량을 36% 절감하면서도 성능 저하를 7%에 머물게 했다.
상세 분석
본 논문은 초대형 LLM이 1M 토큰까지 지원한다는 전제 하에, 실제 법률 실무에서 흔히 마주치는 “다중 문서·다중 페이지” 사례를 대상으로 장문 요약 능력을 정밀 검증한다. 핵심 기여는 세 가지다. 첫째, 기존 단일 점수 방식의 한계를 극복하고 26개 체크리스트 항목을 다중값 형태로 추출·비교하도록 설계한 Gavel‑Ref이다. 여기서는 각 항목을 (값, 근거 텍스트) 쌍으로 저장하고, 단일값은 정확·포함·불일치 4단계, 다중값은 F1 점수로 정량화한다. 또한 적용되지 않은 항목을 배제해 실제 오류에 대한 가중치를 높였다. 둘째, 체크리스트에 포함되지 않은 잔여 사실을 별도 평가하는 Residual Fact 평가와, 인간 요약과의 문체·구조 유사성을 1‑5 리커트로 측정하는 Writing Style 평가를 도입해 내용·형식 양면을 포괄한다. 세 번째는 Gavel‑Agent라는 자동화 에이전트 프레임워크다. LLM에 문서 탐색, 검색, 정규식 추출, 요약, 비교, 기록 등 여섯 가지 도구를 연결해, 전체 100K‑500K 토큰 문서를 한 번에 입력하지 않고도 체크리스트 항목을 효율적으로 수집한다. 실험 결과, 가장 성능이 좋은 Gemini 2.5 Pro는 전체 Gavel‑Ref 점수 50점에 머물렀으며, 단일값 항목(예: 제출일)에서는 90% 이상 정확도를 보였지만, 다중값 항목(예: 합의 내용, 모니터링 보고)에서는 30‑40% 수준으로 크게 떨어졌다. 모델 크기와 공개·폐쇄 여부에 따라 차이가 있었으며, 폐쇄형 모델이 전반적으로 우수했다. 또한 토큰 사용량을 기준으로 보면, Gavel‑Agent가 Qwen‑3을 이용해 GPT‑4.1 기반 엔드‑투‑엔드 방식 대비 36% 절감하면서도 성능 저하를 7% 이하로 제한했다. 이는 장문 법률 문서에서 “전체 입력 → 한 번에 요약” 방식이 비효율적이며, 단계적 탐색·추출이 비용·성능 측면에서 유리함을 시사한다. 마지막으로 메타‑평가를 통해 LLM 기반 평가와 인간 평가 간의 일치도가 충분히 높아, 자동화된 평가가 실용적임을 검증했다. 전체적으로 본 연구는 장문 법률 요약에 대한 평가·추출 파이프라인을 체계화하고, 향후 LLM이 인간 요약을 초월할 경우에도 체크리스트 기반 사실 검증이 가능한 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기