법률 기계 번역으로 접근성 강화 영어 힌디어 변환 연구

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.18593
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

다언어 국가인 인도와 같이 법률 및 사법 문서의 대부분이 영어로만 제공되는 경우, 언어 장벽으로 인해 법률 정보 접근이 크게 제한된다. 법률 기계 번역(L‑MT)은 이러한 문제에 대한 확장 가능한 해결책을 제시하며, 법률 문서의 정확하고 접근 가능한 번역을 가능하게 한다. 본 논문은 JUST‑NLP 2025 Legal MT 공유 과제에 대한 우리의 작업을 소개한다. 우리는 영어‑힌디어 번역에 초점을 맞추어 Transformer 기반 접근법을 적용하였다. 구체적으로, 도메인 특화 적응을 위해 사전 학습된 OPUS‑MT 모델을 미세 조정하는 방법과 제공된 법률 코퍼스를 이용해 Transformer 모델을 처음부터 학습하는 두 가지 상보적 전략을 실험하였다. 성능 평가는 SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, COMET 등 표준 MT 지표를 사용하였다. 미세 조정된 OPUS‑MT 모델은 SacreBLEU 46.03점을 달성하여 베이스라인 및 처음부터 학습한 모델을 크게 앞섰다. 결과는 도메인 적응이 번역 품질 향상에 효과적임을 강조하며, 다언어 환경에서 법률 투명성과 정의 접근성을 향상시킬 수 있는 L‑MT 시스템의 잠재력을 보여준다.

💡 논문 핵심 해설 (Deep Analysis)

본 연구는 인도와 같은 다언어 사회에서 법률 정보의 언어적 불균형을 해소하고자 하는 실용적 목표를 가지고 있다. 영어가 법률 문서의 주요 언어인 반면, 힌디어를 비롯한 지역 언어 사용자는 원문을 이해하기 어려워 법적 절차에서 불리한 입장에 놓이게 된다. 이러한 배경에서 법률 기계 번역(L‑MT)은 단순히 번역 정확도를 넘어, 사회적 정의 실현과 법률 투명성 제고라는 큰 의미를 갖는다.

논문은 두 가지 접근법을 동시에 탐구한다. 첫 번째는 OPUS‑MT라는 공개 사전 학습 모델을 도메인 특화 데이터셋으로 미세 조정(fine‑tuning)하는 방법이다. OPUS‑MT는 다언어 쌍에 대해 광범위한 병렬 데이터를 학습했으나, 일반 도메인에 최적화돼 있어 법률 용어의 특수성(예: ‘소송’, ‘판결’, ‘증거’ 등)이나 복합 문장 구조에 대한 번역 품질이 떨어질 가능성이 있다. 이를 보완하기 위해 연구팀은 JUST‑NLP 2025 과제에서 제공된 법률 코퍼스를 활용, 5‑epoch 정도의 추가 학습을 진행하였다. 미세 조정 과정에서 학습률을 낮게 설정하고, 레이어별 가중치 동결 전략을 적용해 기존 언어 모델의 일반화 능력을 유지하면서도 법률 용어에 대한 적응을 유도했다.

두 번째 접근법은 동일 코퍼스를 사용해 Transformer 모델을 처음부터 학습하는 것이다. 이는 사전 학습 모델에 의존하지 않음으로써 데이터에 대한 완전한 통제와 맞춤형 아키텍처 설계가 가능하다는 장점을 제공한다. 연구팀은 기본적인 Encoder‑Decoder 구조에 6개의 레이어, 8개의 헤드, 모델 차원 512를 채택했으며, 토큰화는 SentencePiece 기반 BPE를 사용해 어휘 크기를 32k로 제한하였다. 학습 과정에서는 라벨 스무딩과 드롭아웃(0.1) 등을 적용해 과적합을 방지하고, Adam optimizer와 학습률 스케줄러(스케줄링 워밍업 4000 스텝)를 활용했다.

평가 지표는 SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, COMET 등 7가지로 다양하게 설정돼, 단순 문자열 일치뿐 아니라 의미적 유사성까지 포괄적으로 측정한다. 특히 COMET과 BERTScore는 사전 학습된 언어 모델을 기반으로 한 평가로, 법률 텍스트와 같이 전문 용어가 많은 경우 인간 평가와 높은 상관관계를 보인다. 결과는 미세 조정된 OPUS‑MT 모델이 SacreBLEU 46.03점을 기록, 베이스라인(약 38점)과 처음부터 학습한 Transformer(약 41점)를 크게 앞섰음을 보여준다. chrF++와 COMET에서도 동일한 우위가 확인되었으며, TER와 METEOR에서도 개선된 수치를 나타냈다.

이러한 성과는 도메인 적응이 법률 번역 품질에 미치는 영향을 실증적으로 입증한다는 점에서 의미가 크다. 사전 학습 모델은 대규모 일반 데이터로부터 풍부한 언어 지식을 습득했지만, 특정 분야에 대한 세밀한 조정이 없으면 전문 용어 번역에 한계가 있다. 반면, 처음부터 학습한 모델은 데이터 양이 제한적일 경우 일반화 능력이 떨어질 위험이 있다. 따라서 두 접근법을 병행하거나, 미세 조정 단계에서 데이터 증강(예: 역번역, 교차 언어 패러프레이징) 등을 도입하면 더욱 높은 성능을 기대할 수 있다.

한계점으로는 평가가 자동 지표에 의존했으며, 실제 법조인이나 일반 사용자를 대상으로 한 인간 평가가 부족했다는 점이다. 법률 번역은 정확성뿐 아니라 법적 효력과 해석 차이를 최소화해야 하므로, 인간 평가와 법적 검증 절차를 포함한 후속 연구가 필요하다. 또한, 힌디어 외에 인도 내 다른 지역 언어(예: 벵골어, 텔루구어)로 확장하는 작업도 향후 과제로 남아 있다.

결론적으로, 본 연구는 사전 학습 모델의 도메인 적응이 L‑MT 분야에서 실용적인 해결책이 될 수 있음을 보여주며, 다언어 사회에서 법률 접근성을 높이는 데 기여할 수 있는 기반을 마련한다.

📄 논문 본문 발췌 (Translation)

다언어 국가인 인도와 같이 법률 및 사법 문서의 대부분이 영어로만 제공되는 경우, 언어 장벽으로 인해 법률 정보 접근이 크게 제한된다. 법률 기계 번역(L‑MT)은 이러한 문제에 대한 확장 가능한 해결책을 제시하며, 법률 문서의 정확하고 접근 가능한 번역을 가능하게 한다. 본 논문은 JUST‑NLP 2025 Legal MT 공유 과제에 대한 우리의 작업을 소개한다. 우리는 영어‑힌디어 번역에 초점을 맞추어 Transformer 기반 접근법을 적용하였다. 구체적으로, 도메인 특화 적응을 위해 사전 학습된 OPUS‑MT 모델을 미세 조정하는 방법과 제공된 법률 코퍼스를 이용해 Transformer 모델을 처음부터 학습하는 두 가지 상보적 전략을 실험하였다. 성능 평가는 SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, COMET 등 표준 MT 지표를 사용하였다. 미세 조정된 OPUS‑MT 모델은 SacreBLEU 46.03점을 달성하여 베이스라인 및 처음부터 학습한 모델을 크게 앞섰다. 결과는 도메인 적응이 번역 품질 향상에 효과적임을 강조하며, 다언어 환경에서 법률 투명성과 정의 접근성을 향상시킬 수 있는 L‑MT 시스템의 잠재력을 보여준다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키