인도 언어를 위한 맞춤형 해석 프레임워크 Indic‑TunedLens

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인도 10개 언어에 특화된 해석 도구인 Indic‑TunedLens를 제안한다. 기존 Logit Lens가 중간 레이어의 은닉 상태를 그대로 출력 어휘 공간에 투사하는 반면, 본 방법은 각 언어별로 학습된 공유 어파인 변환을 적용해 은닉 상태를 최종 출력 분포와 정렬한다. Sarvam‑1 모델과 MMLU 벤치마크를 이용한 실험에서, 특히 형태학적으로 복잡하고 데이터가 부족한 언어에서 기존 방법 대비 정확도와 엔트로피 감소가 크게 향상되었음을 보였다.

상세 분석

Indic‑TunedLens는 기존 Logit Lens의 한계를 극복하기 위해 “어파인 변환(affine transformation)”이라는 중간 단계 를 도입한다. 구체적으로, n번째 레이어의 은닉 벡터 hₙ에 대해 Mₙ·hₙ + bₙ 형태의 선형 변환을 수행하고, 이를 모델의 최종 로짓 헤드에 입력한다. 이때 Mₙ∈ℝ^{d×d}, bₙ∈ℝ^{d}는 모든 언어에 대해 공유되면서도 각 레이어마다 별도로 학습된다. 학습 목표는 KL‑다이버전스를 최소화하는 것으로, 최종 레이어가 생성한 토큰 확률 분포 p_final(x)를 “라벨”로 삼아 중간 레이어가 동일한 분포를 재현하도록 한다. 이렇게 하면 은닉 상태가 언어별 어휘 분포와 직접 정렬되므로, 특히 서브워드 토크나이징이 다르고 어휘 크기가 큰 인도 언어들에서 의미 있는 토큰을 조기에 예측할 수 있다.

실험에서는 Sarvam‑1 모델을 기반으로 11개 언어(영어 포함) 중 10개를 평가에 사용했으며, 훈련 데이터는 Sangraha 데이터셋, 평가 데이터는 다국어 MMLU의 인도 언어 버전을 활용했다. 주요 평가지표는 레이어별 엔트로피와 레이어‑와이즈 정확도(최종 레이어와의 토큰 일치율)이다. 결과는 두 가지 측면에서 두드러졌다. 첫째, 엔트로피 히트맵에서 Indic‑TunedLens는 초기 레이어부터 점진적으로 엔트로피가 감소하는 패턴을 보였으며, 이는 모델이 언어 고유의 형태소·구문 정보를 일관되게 축적한다는 증거다. 반면 기존 Logit Lens는 초기 레이어에서 높은 엔트로피와 불규칙한 변동을 보여, 영어 중심의 투사가 인도 언어에 부적합함을 확인시켰다. 둘째, 레이어‑와이즈 정확도는 1~~8층에서 0.04~~0.06 정도의 정확도 향상을 기록했으며, 특히 힌디어, 벵골어, 네팔어와 같이 풍부한 굴절 형태를 가진 언어에서 큰 폭의 개선이 관찰되었다. 영어는 초기 레이어에서 0.06의 소폭 상승을 보였고, 전반적으로 모든 언어가 20층 이후에도 일정 수준 이상의 정확도를 유지했다.

또한, 언어별 개선 패턴을 분석한 결과, 텔루구와 타밀처럼 어휘가 복합어 형태로 구성되는 언어는 중간 레이어(5‑15층)에서 지속적인 향상을 보였고, 구자라티와 칸나다는 전반적인 레이어에 걸쳐 고르게 작은 폭의 개선을 나타냈다. 이는 어파인 변환이 각 언어의 형태론적·통사론적 특성을 반영해 레이어별 처리 흐름을 맞춤형으로 조정한다는 점을 시사한다. 한계점으로는 현재 변환 매개변수가 모든 언어에 대해 동일하게 공유되므로, 매우 이질적인 언어(예: 우르두·신디)에는 추가적인 언어별 파라미터가 필요할 수 있다. 또한, KL‑다이버전스 기반 학습이 최종 출력 분포에 과도하게 의존하므로, 모델이 내부적으로 생성하는 잠재 의미 구조를 완전히 포착하지 못할 가능성도 존재한다.

전반적으로 Indic‑TunedLens는 인도 언어 특유의 복잡한 형태소와 스크립트 차이를 고려한 최초의 레이어‑와이즈 해석 프레임워크이며, 다국어 LLM의 투명성을 높이고 언어별 편향을 진단하는 데 유용한 도구로 평가된다.

인도 언어를 위한 맞춤형 해석 프레임워크 Indic‑TunedLens

초록

상세 분석

댓글 및 학술 토론

의견 남기기