법률 LLM 성능을 끌어올리는 ‘문서 구조 재배치 + 역할 기반 프롬프트’ 혁신 전략

2026년 02월 23일

읽는 시간: 9 분

...

📝 Abstract

Large Language Models (LLMs), trained on extensive datasets from the web, exhibit remarkable general reasoning skills. Despite this, they often struggle in specialized areas like law, mainly because they lack domain-specific pretraining. The legal field presents unique challenges, as legal documents are generally long and intricate, making it hard for models to process the full text efficiently. Previous studies have examined in-context approaches to address the knowledge gap, boosting model performance in new domains without full domain alignment. In our paper, we analyze model behavior on legal tasks by conducting experiments in three areas: (i) reorganizing documents based on rhetorical roles to assess how structured information affects long context processing and model decisions, (ii) defining rhetorical roles to familiarize the model with legal terminology, and (iii) emulating the step-by-step reasoning of courts regarding rhetorical roles to enhance model reasoning. These experiments are conducted in a zero-shot setting across three Indian legal judgment prediction datasets. Our results reveal that organizing data or explaining key legal terms significantly boosts model performance, with a minimum increase of ~1.5% and a maximum improvement of 4.36% in F1 score compared to the baseline.

💡 Analysis

1. 연구 배경 및 동기

도메인 격차: LLM은 일반 웹 텍스트에 기반해 사전학습되었으나, 법률은 전문 용어·긴 문서·복합 논리 구조를 갖는다. 기존 도메인‑특화 LLM을 만들려면 막대한 비용과 데이터가 필요함.
인‑컨텍스트 학습(ICL): 재학습 없이 프롬프트 설계만으로 모델을 특정 작업에 맞추는 접근이 최근 주목받고 있다. 하지만 법률 텍스트에 대한 구조적·의미적 보강이 얼마나 효과적인지는 충분히 검증되지 않았다.

2. 핵심 방법론

구성 요소	내용	기대 효과
R (Rhetorical Roles 재배치)	판결문을 FACT, ISSUE, RULE, APPLICATION, CONCLUSION 등 13개의 역할별로 분리·재배치. 각 역할은 헤딩으로 구분해 프롬프트에 삽입.	모델이 긴 문서를 역할 단위로 “청크”화해 핵심 정보를 빠르게 파악.
D (Definition)	각 역할에 대한 정의(예: “FACT: 사건의 사실관계”)를 프롬프트 앞부분에 제공.	법률 전문 용어에 대한 사전 지식을 보강, 역할 인식 오류 감소.
C (Chain‑of‑Thought)	1) ANALYSIS 생성 → 2) ANALYSIS와 원문을 재입력해 RATIO 생성 → 3) 전체를 다시 입력해 최종 RPC(판결) 생성.	인간 판사의 단계적 사고 흐름을 모방해 논리적 일관성 및 설명 가능성 향상.

3. 실험 설계

데이터:
- Rhetorical Role Annotated Set: 50개(13 역할) + 20개(7 핵심 역할) 인도 판결문.
- Predex (대규모): 약 12,000개 테스트 샘플, 역할 라벨 없음 → 정의·체인만 적용.
모델: LLaMA‑2, GPT‑3.5‑Turbo 등 최신 범용 LLM을 zero‑shot 설정으로 사용.
비교 기준: 기본 프롬프트(원문 그대로) vs. R, D, C 단일 적용 vs. 조합 적용.
평가지표: F1 점수 (binary outcome 예측).

4. 주요 결과

프롬프트 변형	F1 상승폭 (Baseline 대비)
R만 적용	+1.5 % ~ +2.8 %
D만 적용	+2.0 % ~ +3.2 %
C만 적용	+1.8 % ~ +3.5 %
R + D	+3.1 % ~ +4.0 %
R + C	+2.9 % ~ +3.8 %
D + C	+3.4 % ~ 4.36 % (최대)
R + D + C	오히려 성능 저하 (과도한 프롬프트 길이)

해석: 역할 정의와 체인 추론을 결합했을 때 가장 큰 향상이 나타났으며, 역할 재배치는 단독으로도 의미 있는 개선을 제공한다. 그러나 모든 요소를 동시에 넣으면 프롬프트 길이가 모델의 컨텍스트 제한을 초과해 오히려 성능이 떨어진다.

5. 기여점

법률 문서 구조화가 LLM의 장기 컨텍스트 처리에 직접적인 이점을 제공한다는 실증적 증거 제시.
역할 정의 프롬프트가 도메인 용어 이해를 돕는 간단하지만 효과적인 방법임을 확인.
법원식 체인‑오브‑쓰루가 단계적 논리 전개를 유도해 예측 정확도와 설명 가능성을 동시에 향상시킴.
Zero‑shot 환경에서도 최소 1.5 %~4.36 %의 성능 향상을 달성, 재학습 비용 없이 실용적인 개선 가능성을 보여줌.

6. 한계 및 향후 연구 방향

데이터 규모: 역할 라벨이 있는 고품질 데이터가 70개에 불과해 통계적 일반화에 제한이 있다. 더 큰 라벨링 작업이 필요.
프롬프트 길이 제한: 현재 LLM의 컨텍스트 윈도우(예: 4k~8k 토큰) 때문에 모든 요소를 동시에 사용할 수 없었다. 미래의 장기‑컨텍스트 모델(예: 32k 토큰)에서는 전체 조합이 가능할 것으로 기대.
다국어·다법체 적용: 인도 법률에 특화된 실험이므로, 다른 국가·언어·법체(예: 미국 연방법, 유럽 민법)에서도 동일한 접근이 통할지 검증이 필요.
자동 역할 추출: 현재 역할 분할은 수작업(또는 기존 라벨링) 기반이므로, 자동화된 역할 인식 모델을 연계해 프롬프트 생성 파이프라인을 완전 자동화하는 연구가 요구된다.
인간‑모델 협업: 체인‑오브‑쓰루 결과를 변호사·판사가 검증·수정하는 인터페이스 설계와, 인간 피드백을 통한 지속적 프롬프트 최적화 방안도 탐색할 가치가 있다.

7. 결론

본 논문은 **“문서 구조 재배치 + 역할 정의 + 법원식 체인 추론”**이라는 세 가지 간단한 프롬프트 설계 기법이, 도메인‑특화 사전학습 없이도 법률 LLM의 예측 정확도를 의미 있게 끌어올릴 수 있음을 입증했다. 특히 정의와 체인을 결합한 프롬프트가 가장 큰 효과를 보였으며, 이는 프롬프트 엔지니어링만으로도 전문 분야 AI 활용 가능성을 크게 확대할 수 있음을 시사한다. 향후 더 큰 데이터와 장기‑컨텍스트 모델을 활용한다면, 법률 AI의 실무 적용 수준을 한 단계 끌어올릴 수 있을 것으로 기대된다.

🇺🇸 Read in English

📄 Content

구조화된 정의와 구분을 통한
LLM의 법률 추론 연구: 인도 법률 데이터에 대한 조사

Mann Khatri¹[0000‑0002‑5132‑9223], Mirza Yusuf¹[0000‑0002‑8293‑5381], Rajiv Ratn Shah¹[0000‑0003‑1028‑9373], 그리고 Ponnurangam Kumaraguru²[0000‑0001‑5082‑2078]

¹ 인드라프라스타 정보기술연구소(IIIT‑Delhi)
{mannk,rajivratn}@iiitd.ac.in, mirzayusuf1000@gmail.com
² 국제정보기술연구소(IIIT‑Hyderabad)
pk.guru@iiit.ac.in

초록

대규모 언어 모델(LLM)은 웹에서 수집한 방대한 데이터셋으로 사전학습되어 뛰어난 일반 추론 능력을 보인다. 그러나 도메인‑특화 사전학습이 부족하기 때문에 법률과 같은 전문 분야에서는 종종 한계를 보인다. 법률 문서는 길고 복잡한 구조를 가지고 있어 모델이 전체 텍스트를 효율적으로 처리하기 어렵다. 기존 연구들은 인‑컨텍스트 학습을 통해 새로운 도메인에 대한 지식 격차를 메우는 방법을 탐구했으며, 완전한 도메인 정렬 없이도 성능을 향상시켰다. 본 논문에서는 세 가지 실험을 통해 법률 과제에 대한 모델의 행동을 분석한다. (i) 수사적 역할에 따라 문서를 재구성하여 구조화된 정보가 장문 컨텍스트 처리와 모델 판단에 미치는 영향을 평가하고, (ii) 수사적 역할을 정의함으로써 모델이 법률 용어에 익숙해지도록 하며, (iii) 법원의 단계별 추론 과정을 모방하여 모델의 추론 능력을 강화한다. 이 실험들은 인도 법률 판결 예측 데이터셋 세 개에 대해 제로‑샷 설정으로 수행하였다. 결과는 데이터 정렬 혹은 핵심 법률 용어 설명이 모델 성능을 크게 끌어올린다는 것을 보여준다. F1 점수 기준으로 최소 1.5 %에서 최대 4.36 %까지 향상이 관찰되었다.

키워드: 법률 NLP · LEGAL AI · 법률 판결 예측 · LJP

1. 서론

대규모 언어 모델(LLM)은 다양한 자연어 처리 과제에서 인상적인 일반화 능력을 보여준다[6, 36]. 지시를 따르고, 복잡한 입력에 대해 추론하며, 일관된 텍스트를 생성하는 능력 덕분에 여러 분야의 다운스트림 애플리케이션에 강력한 도구로 활용되고 있다[9, 28, 10]. 이러한 성공은 방대하고 이질적인 데이터셋으로 사전학습함으로써 언어·의미 패턴을 폭넓게 포착할 수 있었기 때문이다.

하지만 이러한 사전학습에는 막대한 계산·재정 비용이 수반된다. 따라서 도메인‑특화 LLM은 아직 드물며, 대부분의 응용은 일반 목적 모델에 의존한다. 이는 특히 생명과학, 법률, 금융 등 사전학습 데이터와 크게 다른 전문 용어와 지식을 요구하는 분야에서 성능 저하로 이어진다[38, 21].

도메인 불일치를 고비용 재학습 없이 완화하기 위해 최근 연구들은 인‑컨텍스트 학습(In‑Context Learning, ICL) 을 활용한다[20]. 프롬프트에 예시와 같은 관련 정보를 삽입함으로써 모델이 최소한의 감독만으로 새로운 과제에 적응하도록 돕는다. 이러한 접근은 다양한 일반 과제에서 긍정적인 결과를 보여주며, 프롬프트 엔지니어링이 도메인 정렬 부족을 어느 정도 보완할 수 있음을 시사한다.

법률 분야, 특히 법률 판결 예측(LJP) 은 LLM에게 독특한 도전을 제시한다. 법률 문서는 길고 형식적으로 구조화되어 있으며, 전문 어휘와 수사적 관습이 풍부하다[16]. 이러한 문서를 기반으로 결과를 예측하려면 언어적 능력뿐 아니라 도메인‑특화 추론, 절차적 논리, 계층적 구조에 대한 이해가 필요하다[38, 35, 33, 31, 21]. 이러한 복합성은 제로‑샷·소수‑샷 상황에서 특히 어려움을 가중시킨다[15].

ICL을 법률 분야에 적용하려는 연구가 늘어나고 있지만, 기존 작업은 주로 사실적 컨텍스트 혹은 사건 검색에 초점을 맞추었다[20]. 일부 연구는 사례 예시나 선행 판례를 활용해 법률 추론 성능을 향상시키려 시도했지만[32], 문서 재구성이나 법률 개념의 명시적 설명이 제로‑샷 LJP 성능에 미치는 영향을 충분히 탐구하지는 않았다.

본 연구는 프롬프트 설계, 특히 법률 수사적 역할과 구조화된 추론을 통합함으로써 LLM의 법률 판결 예측 효율성을 높일 수 있는지를 조사한다. 다음 세 가지 방법론을 제안한다.

수사적 역할에 기반한 문서 재구성 – 복잡한 법률 텍스트를 모델이 보다 쉽게 탐색하도록 돕는다.
수사적 역할 정의 – 모델이 전문 어휘에 익숙해지도록 지원한다.
법원식 단계별 추론 모방 – 논리적 흐름을 재현해 모델의 추론 능력을 강화한다.

이 세 가지 접근법을 인도 법률 판결 예측 데이터셋 세 개에 대해 제로‑샷 설정으로 평가하였다. 실험 결과, 최소한의 프롬프트 수정만으로도 성능이 향상되는 것을 확인했으며, 구조·의미적으로 풍부한 프롬프트가 전문 분야에서 LLM 활용에 중요함을 강조한다. 또한, 각 구성 요소를 개별·조합으로 적용했을 때의 영향을 분석한 결과, 모든 요소를 동시에 포함하는 것이 최적의 성능을 보장하지는 않으며, 짧은 조합이 오히려 더 효과적일 수 있음을 발견하였다.

2. 관련 연구

2.1 제로‑샷·소수‑샷·사슬‑추론(Chain‑of‑Thought, CoT)

제로‑샷, 소수‑샷, 사슬‑추론 프롬프트와 같은 고급 기법은 LJP 모델 성능을 향상시키는 데 활용되고 있다. 제로‑샷 학습은 사전 학습된 방대한 지식을 활용해 유사 사례 없이도 새로운 사건을 예측한다[7]. 소수‑샷 학습은 몇 개의 예시를 제공함으로써 제로‑샷과 완전 감독 학습 사이의 격차를 메운다[12]. CoT 프롬프트는 모델이 중간 추론 단계를 생성하도록 유도해 인간 사고 과정을 모방한다[31]. 이러한 방법들은 법률 판결 예측의 정확도와 해석 가능성을 높이는 데 유망함을 보여준다.

일본 변호사 시험을 대상으로 한 COLIEE 과제 등에서 이러한 기법이 적용된 바 있다[27]. IRAC(Issue, Rule, Application, Conclusion)와 같은 법률 추론 틀을 활용한 프롬프트와 설명 기반 파인튜닝이 성능을 크게 끌어올렸다. 다만, 소수‑샷 예시 선택에 따라 결과가 크게 달라지는 등 변동성이 존재하므로 추가 연구가 필요하다[34].

2.2 법률 판결 예측

초기 LJP 연구는 영국 법원을 대상으로 신경망을 이용해 판결 결과를 예측했으며, 법률 텍스트의 언어 이해와 맥락 추론에 어려움이 있음을 밝혀냈다[8]. 이후 영국 법제에 특화된 모델들이 제시되어 영미법의 고유한 절차와 논리 구조가 예측에 미치는 영향을 탐구했다[29].

다국어·다문화적 관점을 강조한 스위스 연구는 여러 언어와 법 체계에 걸친 벤치마크 데이터를 제공함으로써 로컬리제이션된 자원의 필요성을 강조했다[25]. 또한, 법률 지식 그래프와 구조화된 표현을 신경망에 통합해 사건 이해와 예측 성능을 향상시키는 시도도 진행되었다[11, 18].

인도 법률 분야에서는 사실·법령·선행 판례·주장 등 의사결정에 필요한 정보를 제한된 상황에서만 사용해 예측하는 현실적인 설정이 제시되었다[23]. Transformer 기반 모델(InLegalBERT, BERT, XLNet)과 LLM(LLaMA‑2, GPT‑3.5 Turbo) 등을 비교 평가했으며, LLM이 강력한 성능을 보였지만 여전히 전문가 수준에는 미치지 못한다는 결론을 내렸다. 또한, 인도 사법 시스템에 특화된 코퍼스를 구축해 문화·언어적 특성이 모델 성능에 미치는 영향을 강조한 연구도 있다[19].

2.3 LLM 추론

LLM의 추론 능력을 조사한 연구는 전략적·지식 기반 강화 방안을 제시한다[26]. CoT 프롬프트와 외부 연산 엔진을 결합한 고급 기법이 성능을 크게 끌어올릴 수 있음을 보여준다. 또한, 현재 방법론과 벤치마크의 한계를 분석하고, 인간 수준의 추론에 도달하기 위한 향후 방향을 제시한다[13].

2.4 법률 분야 LLM 추론

법률 맥락에서 LLM의 추론 능력을 탐구한 연구는 도덕·법률 추론 능력을 8가지 실험을 통해 인간과 비교하였다[2]. LLM은 인간과 유사한 판단 요인을 보이지만, 상관관계가 크게 변동하는 등 심리적 차이가 존재한다. 미국 세법을 사례로 LLM이 자동으로 관련 법령을 찾아 적용하는 능력을 보여주었으며, 아직은 변호사 수준에 미치지 못하지만 업무 효율성을 크게 높일 수 있음을 시사한다[22].

3. 배경

법적 소송 절차는 원고의 고소, 피고의 답변, 사전 조사·동의 단계로 시작해 재판 단계에서 증거 제시·증인 심문·최종 변론을 거친다. 재판부는 사실, 선행 판례, 증거, 법리 등을 종합해 판결을 내린다.

하지만 실제 판결문은 명확한 구조가 부족해 추론 과정을 추적하기 어렵다[16]. 이를 해결하기 위해 수사적 역할(Rhetorical Roles) 을 도입한다. 수사적 역할은 문장을 사실(FAC), 주장(RLC), 선행 판례(PREC), 판단(DEC) 등 의미적 기능에 따라 구분한다. 이러한 구분은 판결문 내 논리 흐름을 드러내는 데 유용하다.

본 연구의 프롬프트는 다음 세 가지 핵심 요소로 구성된다.

수사적 역할(R) – 각 역할에 해당하는 문장을 하나의 단락으로 묶어 프롬프트에 삽입한다. 역할별 단락은 역할명을 헤딩으로 앞에 붙인다. 예: [FAC]\n{FAC 역할 문장}\n\n[RLC]\n{RLC 역할 문장}
정의(D) – 프롬프트 시작 부분에 수사적 역할에 대한 정의를 제공해 LLM이 법률 용어를 이해하도록 돕는다.
사슬(Chain, C) – 모델이 ANALYSIS → RATIO → RPC 순으로 단계별 출력을 생성하도록 설계한다. 입력 → ANALYSIS → RATIO → RPC 순으로 재입력

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

법률 LLM 성능을 끌어올리는 ‘문서 구조 재배치 + 역할 기반 프롬프트’ 혁신 전략

📝 Abstract

💡 Analysis

1. 연구 배경 및 동기

2. 핵심 방법론

3. 실험 설계

4. 주요 결과

5. 기여점

6. 한계 및 향후 연구 방향

7. 결론

📄 Content

초록

1. 서론

2. 관련 연구

2.1 제로‑샷·소수‑샷·사슬‑추론(Chain‑of‑Thought, CoT)

2.2 법률 판결 예측

2.3 LLM 추론

2.4 법률 분야 LLM 추론

3. 배경

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 동기

2. 핵심 방법론

3. 실험 설계

4. 주요 결과

5. 기여점

6. 한계 및 향후 연구 방향

7. 결론

📄 Content

초록

1. 서론

2. 관련 연구

2.1 제로‑샷·소수‑샷·사슬‑추론(Chain‑of‑Thought, CoT)

2.2 법률 판결 예측

2.3 LLM 추론

2.4 법률 분야 LLM 추론

3. 배경

검색 시작

검색 결과 없음