법원 판단 자동 생성의 새로운 패러다임 JUSTICE
초록
JUSTICE는 “검색 → 사전판단 → 작성” 과정을 모방한 3단계 프레임워크로, 법조문·선례 검색(RJER), 중간 결론 생성(ICE), 최종 판결문 합성(JUS) 모듈을 도입한다. 사전판단 단계의 명시적 모델링을 통해 법적 정확도와 형량 예측이 크게 향상되었으며, 인‑도메인·아웃‑오브‑도메인 모두에서 기존 최첨단 모델을 능가한다.
상세 분석
본 논문은 자동 판결문 생성이라는 복합 과제가 기존 LLM 기반 접근법에서 “검색 → 작성”만을 수행함으로써 인간 판사의 핵심 단계인 사전판단(Pre‑Judge)을 누락하고 있음을 지적한다. 사전판단은 사실관계와 법조문·선례를 종합해 초기 결론을 도출하는 과정으로, 이는 법적 근거 확보와 추론의 투명성을 보장한다. JUSTICE는 이를 세 개의 전용 모듈로 구체화한다. 첫 번째인 RJER는 양방향 검색 엔진을 활용해 (1) 법조문을 bi‑encoder‑based 후보 추출 후 cross‑encoder 로 재정렬하고, (2) 구조‑인식 모델(SAILER)로 가장 유사한 선례 사건을 한 건 추출한다. 여기서 법조문 후보와 선례 사건에서 추출된 핵심 요소(E_case)를 결합해 외부 법조문(A_ext)과 함께 E_ref 집합을 만든다. 두 번째 모듈 ICE는 “유추(Analogy)”라는 관점에서 사전판단을 구현한다. 입력 프롬프트에 사실 서술(F), 선례 핵심 요소(E_case), 외부 법조문(A_ext)을 결합하고, LLM을 구조화된 튜플(p_articles, p_charge, p_term, p_fine) 형태로 출력하도록 fine‑tuning한다. 이는 인간 판사가 과거 판례와 법조문을 비교·대입해 초기 결론을 내리는 과정을 모방한다. 마지막 JUS는 F, ICE가 만든 중간 결론(J_pre), 전체 선례 문서(C_doc), 그리고 사전 정의된 문서 템플릿을 하나의 프롬프트로 결합해 최종 판결문을 생성한다. 학습 목표는 일반적인 언어 모델링 손실을 최소화하는 것이며, 텍스트 유창성뿐 아니라 법조문 인용 정확성도 동시에 확보한다. 실험에서는 중국어 판결문 데이터셋 JuDGE와 OOD인 LeCaRDv2‑Doc을 사용했으며, 법적 정확도(Charge F1, Article F1), 형량·벌금 정확도(Penalty Accuracy), 그리고 METEOR·BERTScore 같은 텍스트 품질 지표에서 기존 CVG, LJP, LLM‑based 베이스라인을 모두 크게 앞섰다. 특히 형량 예측에서 4.6%p 상승을 기록했으며, Ablation 실험을 통해 RJER와 ICE 각각이 성능에 미치는 기여도를 정량화했다. 추가 분석에서는 RJER가 제공하는 법조문·선례의 다양성과 양이 ICE의 유추 정확도에 직접적인 영향을 미치며, ICE가 중간 결론을 명시적으로 생성함으로써 JUS가 보다 일관된 인용과 논리 전개를 수행한다는 점을 확인했다. 한계점으로는 현재 영어·다국어 확장에 대한 검증이 부족하고, ICE의 구조화된 출력이 복잡한 다중 혐의·다중 형량 상황에서 충분히 표현되지 않을 가능성이 있다. 향후 연구에서는 멀티‑턴 대화형 사전판단, 법조문 자동 요약, 그리고 인간 판사와의 협업 인터페이스를 탐색할 여지가 있다. 전반적으로 JUSTICE는 자동 판결문 생성에 있어 “사전판단”이라는 핵심 인지 과정을 체계적으로 도입함으로써 법적 타당성과 텍스트 품질을 동시에 끌어올린 혁신적 접근이다.
댓글 및 학술 토론
Loading comments...
의견 남기기