다국어 LLM의 언어별 헤드, 정말 존재할까

다국어 LLM의 언어별 헤드, 정말 존재할까
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다국어 대형 언어 모델(LLM)에서 언어별로 특화된 어텐션 헤드가 존재하는지를 탐색하고, 필요 없는 언어에 해당하는 헤드를 마스킹하거나 제거했을 때 목표 언어(영어·힌디어)의 성능이 유지되는지를 실험한다. Cohere Aya 101/23 모델을 8 B 파라미터 버전으로 4‑bit 양자화하여 500개의 정렬된 영어·힌디어 질문‑응답 샘플에 대해 각 헤드를 개별적으로 비활성화하고, GPT‑3.5‑Turbo를 평가자(judge)로 활용해 정답 여부를 판정하였다. 결과는 일부 헤드가 특정 언어에만 긍정·부정적 영향을 미치고, 다수는 언어에 무관하거나 백업 역할을 수행한다는 점을 보여준다.

상세 분석

이 연구는 메커니즘 해석(mechanistic interpretability) 분야의 기존 작업을 기반으로, 다국어 LLM이 실제로 언어별 어텐션 헤드를 보유하고 있는지를 정량·정성적으로 검증한다. 먼저, Cohere Aya 101(101개 언어 학습)과 Aya 23(23개 언어 학습) 중 Aya 23의 8 B 파라미터 모델을 선택했으며, 이는 영어와 힌디어 두 언어에 집중할 수 있게 해준다. 모델은 AYA 데이터셋의 정렬된 예시(MLQA‑en(T) 테스트 스플릿)를 사용해 500개의 영어와 500개의 힌디어 질문‑답변 쌍을 추출하였다.

어텐션 헤드 마스킹은 “Are Sixteen Heads Really Better than One?”(Michel et al., 2020)에서 제안된 게이트 방식과 동일하게 구현되었다. 각 헤드에 대해 G_h∈{0,1}을 수동으로 설정해 해당 헤드의 출력을 0으로 만들고, 마지막 12층의 32개 헤드(총 384개) 각각을 독립적으로 비활성화한다. 이렇게 만든 384개의 변형 모델에 대해 GPT‑3.5‑Turbo를 ‘judge’ 프롬프트로 사용해 LLM 응답이 정답(ground truth)과 의미적으로 일치하는지를 0/1 점수로 평가하였다.

정량적 결과는 Figure 1의 히트맵으로 시각화되었으며, 영어와 힌디어에 대해 서로 다른 헤드가 성능에 기여하거나 손해를 끼치는 패턴을 확인할 수 있었다. 구체적으로, 영어 전용으로 긍정적 영향을 보인 헤드(예: Layer 20 Head 5)는 힌디어에서는 영향이 없으며, 반대로 힌디어 전용 헤드(예: Layer 22 Head 3)도 영어에서는 무시된다. 또한, 양 언어 모두에서 일관된 기여를 하는 언어‑agnostic 헤드가 존재함을 Table 4에서 확인했다.

흥미로운 점은 ‘무관한’ 헤드가 존재한다는 사실이다. 이러한 헤드는 현재 실험에 사용된 500개의 정렬 예시에서는 영향을 보이지 않지만, 다른 언어(예: 일본어)나 더 다양한 입력 패턴에서는 역할을 할 가능성이 있다. 저자들은 이를 ‘백업(head backup)’ 현상이라 부르며, Voita et al.(2020)의 연구와 일맥상통하게, 한 헤드가 제거되면 다른 헤드가 그 기능을 대체한다는 가설을 제시한다.

정성적 분석에서는 특정 헤드를 마스킹했을 때 모델이 정답을 오답(예: ‘soluble uranium compounds’ 대신 ‘insoluble uranium compounds’)으로 바꾸는 사례를 제시하였다. 이는 해당 헤드가 핵심 언어‑특화 정보를 캡처하고 있었음을 시사한다. 반면, 일부 헤드를 마스킹해도 정확도가 변하지 않는 경우는 해당 헤드가 현재 작업에 불필요하거나, 다른 헤드가 이미 충분히 정보를 제공하고 있음을 의미한다.

전체적으로 이 논문은 다국어 LLM이 완전한 언어‑agnostic 구조가 아니라, 언어별 특화된 어텐션 헤드와 일반적인 헤드가 혼합된 하이브리드 구조를 가지고 있음을 증명한다. 이러한 발견은 실제 서비스 환경에서 필요 없는 언어에 대한 헤드를 제거하거나, 언어‑특화 프루닝 전략을 적용해 모델 크기와 추론 비용을 절감할 수 있는 근거를 제공한다. 다만, 현재 실험은 두 언어와 제한된 샘플에만 적용되었으므로, 더 많은 언어와 다양한 태스크에 대한 확장 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기