언어를 초월한 정렬: LLM의 다국어 이해를 좌우하는 중간층 정렬 메커니즘

언어를 초월한 정렬: LLM의 다국어 이해를 좌우하는 중간층 정렬 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)이 비영어 입력을 영어와 얼마나 정렬시키는지가 자연어 이해(NLU) 성능에 미치는 영향을 조사한다. 24개 언어와 3가지 NLU 과제에 대해 인스턴스 수준 정렬 지표 DALI와 그 변형 DALI st를 제안하고, 정렬이 낮은 경우 중간층에서의 표현 불일치가 오류를 초래한다는 사실을 발견한다. 또한 활성화 패칭을 통해 비영어 오류를 영어의 중간층 표현으로 교체하면 정답률이 크게 회복되는 인과적 증거를 제시한다.

상세 분석

이 연구는 “LLM이 비영어 입력을 영어와 얼마나 잘 정렬시키는가”라는 질문을 인스턴스 수준에서 정량화하려는 시도로 시작한다. 기존 연구들은 언어 수준에서 MEXA와 같은 지표로 전체 언어의 정렬 정도를 측정했지만, 개별 NLU 샘플이 올바르게 예측되는지와는 직접적인 연결고리가 부족했다. 이를 보완하기 위해 저자들은 Discriminative Alignment Index(DALI)와 그 stricter 버전인 DALI st를 설계하였다. DALI는 특정 인스턴스의 프리미스와 정답 옵션을 결합한 표현을 추출하고, 영어‑비영어 쌍의 코사인 유사도가 같은 언어 내의 비일치 쌍보다 높을 경우 1, 그렇지 않으면 0을 부여한다. DALI st는 여기서 한 단계 더 나아가, 동일 언어 내 비일치 쌍보다도 높은 유사성을 요구함으로써 정렬 판단을 엄격히 한다.

실험은 24개 비영어 언어와 3가지 다국어 NLU 벤치마크(읽기 이해 – Belebele, 서사 이해 – XStoryCloze, 상식 추론 – XCOPA)를 사용해 수행되었다. 각 인스턴스는 Transfer Success(TS)와 Transfer Failure(TF)라는 두 그룹으로 나뉘었는데, TS는 영어와 비영어 모두 정답을 맞춘 경우, TF는 영어는 맞추지만 비영어에서 틀린 경우를 의미한다. DALI와 DALI st를 모든 트랜스포머 층에 대해 계산한 뒤, 각 층에서 정렬 비율이 가장 높은 λ_max를 찾아 TS와 TF 간의 차이를 z‑검정으로 검증하였다. 결과는 대부분의 언어와 과제에서 중간층(보통 8~12번째 층)에서 TS 샘플이 TF 샘플보다 현저히 높은 정렬 비율을 보였으며, 이는 p < 0.01 수준의 통계적 유의성을 갖는다.

인과적 검증을 위해 저자들은 활성화 패칭(activation patching) 실험을 설계했다. 동일 인스턴스에 대해 영어와 비영어 두 번의 순전파를 수행한 뒤, 비영어 순전파의 중간층 표현을 영어 순전파의 동일 층 표현으로 교체한다. 패칭 성공률은 “정답으로 전환된 비율”로 측정했으며, 특히 DALI st가 1인 샘플의 중간층을 패칭했을 때 정답 전환율이 70% 이상으로 크게 상승했다. 대조군으로 비정렬(또는 무관한) 영어 샘플을 패칭했을 때는 전환율이 15% 이하에 머물렀다. 이는 중간층에서의 정렬이 단순한 상관관계를 넘어 실제 예측을 좌우하는 인과적 요인임을 강력히 시사한다.

또한, 트랜스포머 내부의 anisotropy(표현이 좁은 방향성 콘) 문제를 고려해, DALI와 DALI st는 이진화된 스코어를 사용함으로써 높은 코사인 유사도 자체가 과대평가되는 현상을 완화했다. MEXA_T라는 과제‑특화 변형도 제안했지만, 실험 결과 DALI 계열이 인스턴스 수준에서 더 민감하고 해석 가능함을 확인했다.

전체적으로 이 논문은 (1) 비영어 입력이 영어와 얼마나 정렬되는지가 개별 NLU 인스턴스의 성공을 예측한다, (2) 정렬은 주로 중간층에서 형성되며, (3) 정렬이 부족한 경우 해당 층의 표현을 영어와 동일하게 교체하면 오류를 교정할 수 있다는 세 가지 핵심 인사이트를 제공한다. 이러한 발견은 다국어 LLM 설계 시 “영어 중심 정렬 메커니즘”을 명시적으로 강화하거나, 정렬이 약한 언어에 대해 중간층 정렬 보정 모듈을 삽입하는 새로운 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기