인도 법령 식별을 위한 라이트피플 질의 코퍼스 ILSIC 소개
초록
본 논문은 인도 법률 분야에서 일반 시민이 제시하는 비전문적 질의를 기반으로 한 대규모 데이터셋 ILSIC‑Lay와, 동일한 법령 집합을 포함하는 법원 판결 사실을 활용한 ILSIC‑Multi를 구축한다. 두 데이터셋을 이용해 전통적 BM25·SBER‑T·SAILER 등 검색 모델과 GPT‑4.1·Llama‑3·Gemma‑3 등 최신 LLM을 다양한 설정(Zero‑shot, Few‑shot, Retrieval‑Augmented Generation, Supervised Fine‑tuning)에서 평가한다. 실험 결과, 법원 판결만으로 학습한 모델은 라이트피플 질의에 대해 성능이 급격히 저하되며, 법원 데이터와 라이트피플 데이터를 순차 학습하는 전이 학습이 일부 모델(Llama‑3)에서만 제한적인 향상을 보인다. 또한 법령 빈도와 질의 카테고리별 성능 분석을 통해 희귀 법령에 대한 모델 성능이 전반적으로 낮음을 확인한다. 데이터와 코드, 학습된 파라미터는 공개되어 향후 인도 법률 NLP 연구에 활용될 수 있다.
상세 분석
ILSIC 논문은 법률 자연어 처리(Legal NLP) 분야에서 가장 기본적인 과제 중 하나인 법령 식별(Legal Statute Identification, LSI)의 데이터 편향 문제를 체계적으로 다룬다. 기존 LSI 연구는 주로 법원 판결문을 입력으로 사용했으며, 이는 사실(fact) 부분과 해당 사건에 인용된 법령 리스트가 명시적으로 제공돼 대규모 라벨링이 가능했다. 그러나 실제 사용자, 특히 일반 시민이 법률 상담을 요청할 때는 비전문적이고 구어체에 가까운 질의를 제시한다. 이러한 질의는 법률 용어가 부족하고, 모호하거나 중복된 표현이 많아 기존 모델이 직접 적용되기 어렵다. 논문은 이 격차를 메우기 위해 두 종류의 코퍼스를 구축하였다. 첫 번째인 ILSIC‑Lay는 인도 온라인 법률 포럼(kaanoon.com)에서 수집한 8 127개의 실제 사용자 질의를 567개의 법령에 매핑한 데이터셋이다. 질의‑법령 매핑은 변호사 답변에서 GPT‑3.5‑Turbo 기반 프롬프트를 이용해 자동 추출하고, 정규식·퍼지 매칭을 통해 법령 명칭을 정규화하였다. 추출 정확도는 법률 전문가가 50개 샘플을 검증한 결과 95 % 이상으로 보고, 데이터 품질을 확보했다. 두 번째인 ILSIC‑Multi는 동일한 399개의 법령을 기준으로, 라이트피플 질의와 법원 판결 사실을 각각 학습·검증용으로 매칭시킨다. 여기서 법원 데이터는 13 930개의 판결문을 추출해 사실 부분만을 사용했으며, 라이트피플 데이터보다 평균 길이가 4배 이상 길다.
실험 설계는 크게 두 축으로 나뉜다. 첫 번째는 ILSIC‑Lay에 대한 베이스라인 성능 측정이다. BM25, SBER‑T, SAILER와 같은 전통적·밀집 검색 모델을 적용해 상위 k개(최적 k는 검증셋 기반) 법령을 후보로 제시하고, 마이크로·매크로 F1 점수를 산출했다. 두 번째는 최신 LLM을 활용한 다양한 추론 방식이다. Zero‑shot 및 Few‑shot 프롬프트에서는 GPT‑4.1, Llama‑3, Gemma‑3을 직접 질의에 적용했으며, Retrieval‑Augmented Generation(RAG)에서는 검색 모델이 반환한 후보를 프롬프트에 포함시켜 모델이 법령을 생성하도록 유도했다. 또한, Supervised Fine‑tuning(SFT) 단계에서는 라이트피플 데이터와 법원 데이터를 각각 혹은 순차적으로 학습시켜 전이 효과를 검증했다.
핵심 결과는 다음과 같다. (1) 법원 데이터만으로 학습한 모델은 라이트피플 테스트에서 거의 무작위 수준의 성능을 보였으며, 이는 입력 스타일(길이, 어휘, 구문)의 차이가 모델 일반화에 큰 장애가 됨을 시사한다. (2) 라이트피플 데이터만을 사용한 SFT는 GPT‑4.1이 35 % 미만의 µ F1를 기록하는 등 전체적으로 낮은 성능을 보였지만, 기존 검색 기반 방법보다 약간 우수했다. (3) 법원 데이터와 라이트피플 데이터를 순차 학습한 전이 학습은 Llama‑3에서만 미미한 개선을 보였으며, 다른 모델에서는 효과가 없었다. (4) 법령 빈도가 낮은(희귀) 경우 모든 모델의 성능이 급격히 떨어졌으며, 질의 카테고리(가족법, 상법 등)와 성능 간의 상관관계는 뚜렷하지 않았다.
이 논문은 데이터 구축 과정에서 자동화된 프롬프트 기반 추출, 정규화 파이프라인, 그리고 인간 검증을 결합해 높은 라벨 정확도를 달성한 점이 주목할 만하다. 또한, 라이트피플 질의와 법원 사실을 동일한 법령 집합에 매핑함으로써, 두 데이터 소스 간 직접 비교가 가능한 실험 설계를 제공한다. 한계점으로는 라이트피플 질의가 인도 영어에 국한되어 있어 다언어 확장성이 떨어진다는 점, 그리고 현재 공개된 모델이 인도 법률 도메인에 특화된 사전학습이 부족해 성능이 제한적이라는 점을 들 수 있다. 향후 연구는 (① 다국어·다문화 질의 수집, ② 법률 도메인 특화 사전학습, ③ 희귀 법령에 대한 메타러닝·Few‑shot 전략) 등을 통해 성능을 크게 향상시킬 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기