법적 이슈 트리 루브릭을 활용한 법률 추론 트레이스 평가

초록

본 논문은 법률 분야에서 대형 언어 모델(LLM)의 추론 과정을 평가하기 위해, 판결문을 계층적 이슈 트리 형태로 변환한 대규모 데이터셋 LEGIT(24,000개 사례)를 구축한다. 이 트리는 당사자 주장과 법원의 결론을 구조화한 루브릭으로 활용되어, 추론 트레이스의 이슈 커버리지와 정답성을 정량화한다. 인간 전문가 검증을 통해 루브릭의 신뢰성을 입증하고, 기존의 거친 평가 기준과 비교한다. 실험 결과, RAG는 전반적인 추론 능력을 향상시키지만 커버리지는 제한적이며, 루브릭 기반 강화학습(RL)은 정답성을 높이지만 커버리지는 감소한다는 상보적 효과를 확인한다.

상세 요약

LEGIT 데이터셋은 기존 법률 AI 연구에서 흔히 간과되던 ‘추론 트레이스’의 질적 평가를 정량화하려는 시도로, 판결문을 ‘법적 이슈 트리(Legal Issue Tree)’라는 구조화된 루브릭으로 변환한다는 점에서 혁신적이다. 이 트리는 두 가지 핵심 차원을 제공한다. 첫째, 이슈 커버리지는 모델이 생성한 추론이 원본 트리의 모든 하위 이슈를 포괄했는지를 측정한다. 둘째, 정답성은 각 이슈에 대해 모델이 제시한 결론이 트리상의 법원 판단과 일치하는지를 평가한다. 이러한 이중 척도는 단순히 정답률만을 보는 기존 메트릭과 달리, 법률 추론이 요구하는 복합적 논리 전개와 논점 누락을 동시에 감시한다.

데이터 구축 과정에서 저자들은 24,000건의 판결문을 자동 파싱하고, 법학 전문가가 수작업으로 트리 구조를 검증·보완하였다. 특히 ‘반대 주장(oppose)’과 ‘지원 주장(support)’을 구분하고, 각 주장에 대한 법원의 판단을 노드에 명시함으로써, 모델이 ‘양측 논거’를 균형 있게 다루는지를 평가할 수 있게 했다. 인간 전문가와의 상관관계 분석 결과, 루브릭 기반 평가 점수와 전문가 점수 간의 피어슨 상관계수는 0.84로, 높은 신뢰성을 보였다. 이는 기존의 ‘정답/오답’ 혹은 ‘BLEU 점수’와 같은 거친 루브릭에 비해 현저히 높은 수치이다.

실험에서는 GPT‑4, Llama‑2, Claude 등 최신 LLM들을 대상으로 두 가지 접근법을 비교했다. **RAG (Retrieval‑Augmented Generation)**는 외부 법률 문헌을 검색해 컨텍스트를 보강함으로써, 전체 이슈 커버리지를 평균 12%p 상승시켰다. 그러나 정답성 점수는 미세하게 감소했는데, 이는 검색된 자료가 과도하게 일반화되어 특정 이슈에 대한 정확한 판단을 흐리게 만들기 때문이다. 반면 **루브릭 기반 강화학습(RL)**은 보상 함수를 이슈 커버리지와 정답성 두 축으로 설계해, 정답성 점수를 평균 8%p 향상시켰지만 커버리지는 5%p 감소했다. 이는 모델이 ‘정확한 답변’에 집중하면서 일부 부수 이슈를 생략하는 경향을 드러낸다. 두 방법을 결합한 하이브리드 전략은 커버리지는 RAG 수준을 유지하면서 정답성은 RL 수준에 근접하는 균형 잡힌 성능을 보였다.

또한 저자들은 루브릭 설계의 일반화 가능성을 검증하기 위해, 형사·민사·행정 등 서로 다른 법 분야의 서브셋을 별도 평가했다. 결과는 전 분야에 걸쳐 동일한 추세를 보였으며, 특히 복합 다중 이슈가 존재하는 형사 사건에서 RAG의 커버리지 향상이 두드러졌다. 이는 LEGIT가 특정 법 영역에 국한되지 않고, 광범위한 법률 AI 연구에 적용될 수 있음을 시사한다.

한계점으로는 트리 변환 과정에서 인간 전문가의 주관적 판단이 개입될 수 있다는 점, 그리고 현재 데이터가 한국·미국 등 제한된 관할구역에 편중돼 있다는 점을 들 수 있다. 향후 연구에서는 다국어·다관할구역 트리 구축과, 자동 트리 생성 모델을 개발해 라벨링 비용을 절감하는 방향이 필요하다. 전반적으로 LEGIT와 법적 이슈 트리 루브릭은 LLM 기반 법률 추론 시스템의 신뢰성·투명성을 평가하고 개선하는 데 핵심 도구가 될 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)