중간 레이어 정렬 전략 TRepLiNa, 저자원 언어 번역 성능 향상시키다

중간 레이어 정렬 전략 TRepLiNa, 저자원 언어 번역 성능 향상시키다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

인도 저자원 언어(LRL) 번역 성능 향상을 위해 다국어 LLM Aya-23 8B의 특정 내부 레이어에서 교차 언어 표현 유사성을 강제하는 방법(TRepLiNa)을 제안한다. CKA(유사성 정렬)와 REPINA(표현 안정화)를 결합한 이 방법은 중간 레이어(10-15층)에 적용 시 데이터가 부족한 환경에서도 Hindi/English 피벗 언어로의 번역 품질을 효과적으로 개선했다.

상세 분석

본 연구의 기술적 핵심은 다국어 LLM의 ‘내부 표현 공간’을 의도적으로 정렬하여 저자원 언어(LRL)에서 고자원 언어(HRL)로의 지식 전이를 촉진하는 것이다. 저자들은 모델의 다양한 층(레이어)에서 LRL과 HRL(힌디어/영어)의 병렬 문장 hidden state를 분석한 선행 연구에 기반하여, 중간 레이어에서 언어-중립적 표현이 형성된다는 점에 주목했다. 구체적인 정렬 메커니즘으로 CKA(Centered Kernel Alignment)를 채택했다. CKA는 코사인 유사도나 CCA보다 네트워크와 레이어 간 표현을 비교하는 데 더 강건한 것으로 알려진 메트릭으로, LRL의 표현을 HRL의 표현 공간으로 끌어당기는 역할을 한다.

여기에 REPINA(Representation Projection Invariance) 정규화를 결합한 것이 TRepLiNa의 핵심 혁신이다. CKA만 사용하면 HRL의 표현도 LRL 쪽으로 끌려와 원래의 품질이 떨어질 수 있는 ‘표현 표류(Drift)’ 현상이 발생할 수 있다. REPINA는 HRL의 hidden state를 사전 학습 모델의 상태에 ‘고정’하여 이러한 표류를 방지함으로써, LRL 표현만을 안정된 HRL 표현 쪽으로 정교하게 정렬할 수 있게 한다. 실험 결과, CKA만 사용할 때는 10번째 레이어에서 최고 성능을 보였지만, TRepLiNa(CKA+REPINA)를 적용하면 15번째 레이어에서 더욱 뚜렷한 성능 향상을 확인할 수 있었다. 이는 REPINA가 HRL 표현을 안정화시킴으로써 더 깊은(높은) 레이어에서도 효과적인 정렬을 가능하게 했기 때문으로 해석된다.

또 다른 중요한 통찰은 언어적 유사성에 따른 하이퍼파라미터(λ, CKA 가중치) 조정 필요성이다. Bhili-힌디어처럼 어족이 같고 유사도가 높은 언어 쌍에서는 강한 정렬(λ 값 큼)이 오히려 언어 특유의 세부 특징을 상쇄해 성능 향상에 도움이 되지 않았다. 반면, Santali-영어처럼 계통적으로 먼 언어 쌍에서는 TRepLiNa의 효과가 두드러졌다. 이는 모델 최적화에 있어 언어학적 지식이 중요한 역할을 할 수 있음을 시사한다. 결론적으로, TRepLiNa는 복잡한 모델 구조 변경 없이 비교적 적은 계산 비용으로(QLoRA 파인튜닝과 결합) 저자원 언어 번역 성능을 높일 수 있는 실용적인 기법으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기