언어 스티어링으로 다국어 인컨텍스트 학습 성능 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다국어 대형 언어 모델이 영어가 아닌 언어에서 인컨텍스트 학습 시 겪는 성능 격차를 해소하기 위해, 언어별 활성화 차이를 이용한 “언어 벡터”를 제안한다. 파라미터 업데이트 없이 중간 층 활성에 벡터를 더해 목표 언어의 의미 공간으로 이동시키는 방식으로, 19개 언어와 3가지 모델에 걸쳐 일관된 성능 향상을 입증한다.

상세 분석

이 연구는 다국어 LLM이 내부적으로 “보편적 의미 공간”을 공유하고, 각 언어가 이 공간 안에서 서로 다른 방향으로 인코딩된다는 가설에서 출발한다. 이를 검증하기 위해 저자들은 동일 의미를 가진 영어‑목표언어 쌍을 여러 개 준비하고, 각 쌍을 모델에 입력해 특정 층(t)의 은닉 상태를 평균 풀링한다. 그런 다음 목표언어와 영어 사이의 활성화 차이를 평균해 하나의 고정 길이 벡터 v(t)를 만든다. 이 벡터는 “언어 스티어링 벡터”라 불리며, 추론 단계에서 선택된 토큰 위치에 α·v(t)를 더함으로써 모델의 내부 표현을 목표언어 쪽으로 이동시킨다. 중요한 점은 이 과정이 파라미터를 전혀 수정하지 않으며, 단순히 순전한 forward hook만을 사용한다는 것이다.

실험에서는 Llama‑3.1‑8B‑Instruct, Qwen2.5‑7B‑Instruct, Qwen2.5‑14B‑Instruct 세 모델을 대상으로 MGSM(수학 문제), XNLI(자연어 추론), MSV‑AMP(산술 단어 문제) 세 데이터셋을 사용했다. 19개 언어에 대해 기존 영어‑few‑shot 기반 베이스라인(B)과 다국어 few‑shot(MFS) 두 비교군과 성능을 비교했으며, 언어 스티어링은 대부분의 경우 B보다 평균 2~4%p, 때로는 MFS보다도 앞서는 결과를 보였다. 특히 수학적 추론이 요구되는 MGSM에서는 가장 큰 향상이 관찰되었으며, 이는 구조화된 논리 흐름이 언어 스티어링에 민감하게 반응한다는 점을 시사한다.

벡터 자체에 대한 분석도 흥미롭다. 중간 층(예: 10~20번째 층)이 가장 효과적인 스티어링 위치로 나타났으며, 언어 간 벡터를 계층적 군집화했을 때 라틴계, 게르만계, 슬라브계 등 실제 언어계통과 일치하는 군집이 형성되었다. 이는 모델이 언어 특성을 의미 공간 내에서 구조적으로 구분하고 있음을 암시한다. 또한 한 작업에서 얻은 스티어링 벡터를 다른 작업에 그대로 적용했을 때도 성능 향상이 유지돼, 이 벡터가 작업에 독립적인 “언어 모드” 전환 신호임을 확인했다.

전체적으로 이 논문은 (1) 파라미터 없이도 언어 전환을 가능하게 하는 간단하면서도 효과적인 메커니즘을 제시하고, (2) 다국어 LLM 내부의 언어별 표현 구조를 정량적으로 탐색할 수 있는 도구를 제공한다는 점에서 의미가 크다. 향후 연구에서는 더 복잡한 언어쌍(예: 다중 언어 동시 스티어링)이나, 스티어링 벡터를 사전 학습 단계에 통합하는 방법을 탐색하면, 저자들이 제시한 접근법이 더욱 일반화될 가능성이 있다.

언어 스티어링으로 다국어 인컨텍스트 학습 성능 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기