언어와 추론을 분리하면 다국어 LLM이 더 똑똑해진다

언어와 추론을 분리하면 다국어 LLM이 더 똑똑해진다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델이 언어 처리와 추론을 별개의 내부 표현으로 가지고 있다는 가설을 검증한다. 평균 임베딩과 SVD 기반으로 언어‑특정 서브스페이스를 추출하고, 추론 시 해당 성분을 투사 제거함으로써 언어‑추론 분리를 수행한다. 10가지 오픈‑소스 모델과 11개 언어, 세 가지 다국어 추론 벤치마크에서 일관된 성능 향상을 보이며, 상위 레이어의 언어 정보는 유지해야 출력의 언어 일관성을 확보할 수 있음을 확인한다. 훈련‑기반 미세조정이나 강화학습 대비 계산 비용이 거의 들지 않으면서도 동등하거나 우수한 결과를 얻는다.

상세 분석

이 연구는 인간 뇌에서 언어 네트워크와 추론 네트워크가 기능적으로 독립한다는 신경과학적 증거를 모델링한다는 점에서 이론적 동기를 명확히 제시한다. 구체적으로, 각 언어별 입력 샘플의 최종 토큰 임베딩을 평균화해 언어별 평균 벡터 mₗ을 구하고, 이를 열로 결합한 행렬 M을 언어‑공통 서브스페이스 Mₐ와 언어‑특정 서브스페이스 Mₛ로 정규 직교 분해한다. 정규 직교성 제약 하에 SVD를 이용해 최적 해를 얻으며, Mₛ의 차원 r은 언어 다양성을 포착하도록 충분히 크게 설정한다. 추론 단계에서는 모든 레이어의 은닉 표현 h에 대해 ĥ = h − λ Mₛᵀ Mₛ h 로 투사 제거를 수행한다. λ는 제거 강도를 조절하는 하이퍼파라미터이며, 실험에서는 λ=1에 가까운 값을 사용해 언어‑특정 성분을 거의 완전 삭제한다.

실험은 10개의 오픈‑웨이트 모델(예: Qwen‑2.5‑3B/7B, Qwen‑3‑1.7B‑8B, DeepSeek‑R1‑Distill, GLM‑Z1‑9B, QwQ‑32B 등)과 11개 언어(영어, 스페인어, 프랑스어, 독일어, 중국어, 일본어, 러시아어, 태국어, 텔루구, 벵골어, 스와힐리)에서 진행된다. MGSM(수학), XWinograd(상식), M‑MMLU(전문 지식) 세 벤치마크에 대해 정확도와 언어 일관성(GlotLID 기반)을 측정한다. 결과는 대부분의 모델·언어 조합에서 평균 1~3%p의 정확도 상승을 보이며, 특히 저자원 언어에서 개선 폭이 더 크게 나타난다. 레이어별 분석에서는 중간 레이어에서의 언어‑특정 성분 제거가 추론 성능 향상에 가장 크게 기여하고, 최상위 레이어를 완전히 제거하면 출력이 영어로 편향돼 언어 일관성이 급격히 떨어짐을 확인한다. 이는 언어 정보가 고층에서 출력 형성에 필수적이지만, 추론 자체는 저·중층에서 주로 이루어진다는 가설을 뒷받침한다.

또한, 동일한 베이스라인에 대해 감독 미세조정이나 RLHF(강화학습)와 비교했을 때, 훈련 없이 수행되는 이 투사 기반 방법이 계산 비용(추론 시간·GPU 메모리) 면에서 거의 무시할 수준이면서도 정확도와 언어 일관성에서 동등하거나 더 나은 결과를 제공한다. 이는 모델 내부 표현을 직접 조작하는 경량화된 해법이 다국어 일반화에 유용함을 시사한다.

한계점으로는 (1) 언어‑특정 서브스페이스가 사전 훈련 데이터의 영어 편향을 반영해 영어 중심의 정렬을 초래한다는 점, (2) λ 값 선택이 모델마다 민감하게 달라질 수 있어 자동 튜닝이 필요함, (3) 언어 일관성을 유지하기 위해 최상위 레이어의 언어 정보를 완전히 제거하지 못한다는 점을 들 수 있다. 향후 연구에서는 다중 언어 균형을 위한 서브스페이스 정규화, 언어‑추론 분리의 동적 제어, 그리고 비언어적 추론(예: 시각‑언어 멀티모달)으로 확장하는 방향이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기