다국어 법률 임베딩 모델 강화를 위한 LEMUR 코퍼스

다국어 법률 임베딩 모델 강화를 위한 LEMUR 코퍼스
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LEMUR는 25개 언어의 EU 환경법 PDF 24 953개를 수집·정제해 만든 대규모 다국어 법률 코퍼스이다. PDF‑to‑text 변환 품질을 Lexical Content Score(LCS)로 측정하고, 이를 기반으로 세 가지 최신 다국어 임베딩 모델을 단일언어 및 이중언어 대비학습으로 미세조정한다. 실험 결과, 법률 분야 미세조정이 모든 언어에서 Top‑k 검색 정확도를 크게 향상시키며, 특히 저자원 언어와 미보인 언어에서도 좋은 전이 효과를 보인다.

상세 분석

LEMUR 프로젝트는 EU 공식 법령 저장소인 EUR‑Lex에서 환경·소비자·보건 보호 카테고리(15‑10)를 대상으로 1961년부터 2025년까지 발행된 1 174개의 법률 행위에 대한 25개 공식 언어 PDF를 모두 수집한 뒤, 총 24 953개의 문서와 약 461 k 페이지를 확보하였다. 이 과정에서 가장 큰 난관은 PDF‑to‑text 변환 시 발생하는 레이아웃 손실, 다중 컬럼 및 표 구조 파악 오류였다. 저자들은 Docling, Unstructured, PyMuPDF 등 여러 도구를 시험한 뒤, 최신 OCR 기반 도구인 olmOCR을 이용해 JSONL 형태의 구조화된 텍스트를 추출했으며, 이를 HTML 원본과 비교해 Lexical Content Score(LCS)라는 코사인 유사도 기반 지표를 정의하였다. LCS는 HTML과 PDF 텍스트를 정규화·토큰화한 뒤 bag‑of‑words 벡터로 변환해 계산했으며, 고자원 언어(EN, DE, FR)에서는 95 % 이상, 저자원 언어(LV, MT)에서는 각각 약 90 %·80 % 수준의 높은 일관성을 보였다. 이는 변환된 텍스트가 원본 내용과 충분히 일치함을 의미한다.

데이터 전처리 단계에서는 각 법령 문서를 메타데이터 블록(법령 종류, 발행일, 요약 등)과 본문 텍스트로 분리하였다. 메타데이터는 실제 법률 검색 시 사용자가 입력할 짧은 질의에 해당하므로, 이를 쿼리로, 본문을 문서로 사용해 쿼리‑문서 쌍을 자동 생성했다. 이렇게 만든 쌍은 언어별·언어쌍별로 60 %/20 %/20 % 비율로 학습·검증·테스트 셋을 나누어, 동일 법령의 번역본이 같은 셋에 배치되도록 설계하였다.

임베딩 모델 미세조정은 두 가지 시나리오로 진행되었다. 첫 번째는 단일언어 대비학습(monolingual contrastive fine‑tuning)으로, Qwen‑3‑0.6B, Qwen‑3‑4B, E5‑Multilingual 세 모델을 각각 5개 언어(EN, DE, FR, LV, MT)에 대해 메타데이터‑본문 쌍을 양성 예시로, 배치 내 다른 문서를 음성 예시로 활용하는 다중‑음성 순위(MNR) 손실을 최소화했다. 두 번째는 이중언어 다중‑양성 대비학습(bilingual multi‑positive contrastive fine‑tuning)으로, 동일 법령의 번역본을 모두 양성으로 취급해 언어 간 의미 정렬을 강화하였다. 손실 함수는 기존 MNR에 그룹화된 양성 집합을 포함하도록 확장했으며, 온도 스케일링을 통해 유사도 분포를 조정했다. 학습은 최대 30 epoch, 조기 종료, 2 048 토큰(또는 E5는 512 토큰) 제한, bfloat16 및 그래디언트 체크포인팅을 활용했으며, GPU는 RTX A6000 및 A100을 사용했다. 비용 측면에서 E5는 20–30분, Qwen‑3‑0.6B는 2–4시간, Qwen‑3‑4B는 6–8시간 정도 소요되었다.

평가에서는 각 모델의 임베딩을 FAISS 기반 벡터 DB에 색인하고, 메타데이터 질의에 대해 Top‑k(예: k=1,5,10) 검색 정확도를 측정했다. 결과는 모든 언어에서 미세조정 전 대비 Top‑k 정확도가 평균 8 %~15 % 상승했으며, 특히 저자원 언어(LV, MT)에서는 12 %~20 % 이상의 개선을 보였다. 이중언어 다중‑양성 학습은 언어 간 전이 효과를 증대시켜, 훈련에 포함되지 않은 언어에 대해서도 성능 향상이 관찰되었다. 이는 모델이 언어 특유의 표면 형태보다 법률 내용 자체를 보다 언어‑독립적으로 인코딩하게 됨을 시사한다.

전반적으로 LEMUR는 법률 분야 특히 다국어 환경에서 의미 기반 검색을 위한 고품질 데이터셋을 제공하고, PDF 기반 법령의 텍스트 정제 방법론(LCS)과 대규모 임베딩 미세조정 파이프라인을 제시한다는 점에서 학술·산업 모두에 큰 가치를 가진다. 공개된 코드와 데이터는 재현성 확보와 향후 법률 AI 연구의 기반 자료로 활용될 전망이다.


댓글 및 학술 토론

Loading comments...

의견 남기기