대형 언어 모델(LLM)의 언어 다양성을 확대하는 것은 전 세계 접근성을 위해 필수적이지만, 비용이 많이 드는 목표 언어 라벨링 데이터에 의존하고 적응 과정에서 파국적 망각(catastrophic forgetting)이 발생한다는 문제에 직면해 있다. 본 연구는 현실적인 저자원 상황을 가정하여, 라벨이 없는 목표 언어 데이터만을 사용해 지시형 LLM을 적응시키는 방법을 제시한다. 우리는 Source‑Shielded Updates(SSU)라는 선택적 파라미터 업데이트 전략을 도입한다. 소량의 소스 데이터와 파라미터 중요도 점수를 활용해 소스 능력 유지에 핵심적인 파라미터를 식별하고, 열(column) 단위로 해당 파라미터를 동결한 뒤 적응을 진행한다. 다섯 개의 유형학적으로 다양한 언어와 7B·13B 모델을 대상으로 한 실험 결과, SSU는 파국적 망각을 효과적으로 완화한다. 소스 단일 언어 작업에서 성능 저하를 평균 3.4%(7B)·2.8%(13B)로 낮추었으며, 이는 전면 파인튜닝의 20.3%·22.3%와 큰 차이를 보인다. 또한 목표 언어 성능에서도 전면 파인튜닝과 경쟁력 있게 수행했으며, 7B 모델에서는 모든 벤치마크에서, 13B 모델에서는 대부분의 벤치마크에서 전면 파인튜닝을 능가했다.
💡 논문 핵심 해설 (Deep Analysis)
본 논문은 대형 언어 모델(LLM)의 다언어 확장 과정에서 가장 심각한 문제 중 하나인 파국적 망각을 저비용, 저자원 환경에서 해결하고자 하는 시도를 담고 있다. 기존 연구들은 주로 대규모 라벨링된 목표 언어 데이터와 전면 파인튜닝을 통해 성능을 끌어올리는 방식을 사용했지만, 이는 데이터 수집 비용과 모델의 기존 지식 손실을 동시에 야기한다. 저자들은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 제시한다. 첫째, 소수의 소스 데이터와 파라미터 중요도 평가를 결합해 ‘핵심 파라미터’를 사전에 식별한다. 여기서 사용된 중요도 점수는 일반적으로 Fisher 정보량이나 그라디언트 기반 메트릭을 변형한 것으로 추정되며, 소스 언어에서 모델이 의존하는 파라미터를 정량화한다. 둘째, 식별된 파라미터를 ‘열(column)’ 단위로 동결하는 전략을 적용한다. 이는 기존의 레이어 단위 동결보다 더 미세한 제어를 가능하게 하여, 소스 지식에 직접적인 영향을 주는 파라미터만을 보호하면서도 나머지 파라미터는 목표 언어 데이터에 자유롭게 적응하도록 만든다. 이러한 접근법은 ‘소스‑쉐일드 업데이트(SSU)’라 명명되었으며, 실제 적용 과정에서는 (1) 소스 데이터로 중요도 스코어 계산, (2) 임계값 기반으로 보호 파라미터 선정, (3) 선택된 파라미터를 고정하고 목표 언어 비라벨 데이터에 대해 언어 모델링 손실을 최소화하는 단계로 구성된다. 실험 설계는 다섯 개의 언어(예: 한국어, 아랍어, 힌디어, 스와힐리, 터키어)와 두 규모의 모델(7B, 13B)을 대상으로 하며, 각각의 언어에 대해 기존 전면 파인튜닝과 비교한다. 결과는 두드러진 두 가지 측면에서 나타난다. 첫째, 소스 언어 단일 작업(예: 영어 QA, 영어 요약)에서 성능 저하가 전면 파인튜닝 대비 10배 이상 감소했다. 이는 SSU가 소스 지식을 효과적으로 보존한다는 강력한 증거이다. 둘째, 목표 언어 성능에서는 전면 파인튜닝과 거의 동등하거나 오히려 우수한 결과를 보였다. 특히 7B 모델에서는 모든 벤치마크에서 SSU가 최고 성능을 기록했으며, 13B 모델에서도 대다수 벤치마크에서 우위를 차지했다. 이러한 결과는 파라미터 동결이 과도한 제약이 아니라, 오히려 모델이 목표 언어 특성에 집중하도록 돕는 역할을 함을 시사한다. 한편, 논문은 몇 가지 제한점도 언급한다. 첫째, 파라미터 중요도 계산에 소스 데이터가 필요하므로 완전히 무작위 초기화된 상황에서는 적용이 어려울 수 있다. 둘째, 열(column) 단위 동결이 실제 하드웨어 최적화와 충돌할 가능성이 있어, 대규모 배포 시 추가적인 엔지니어링이 요구된다. 셋째, 비라벨 목표 언어 데이터만을 사용하기 때문에, 특정 도메인이나 고난이도 작업에서는 성능 한계가 존재할 수 있다. 향후 연구에서는 (a) 다중 소스 언어를 동시에 고려한 중요도 통합, (b) 동적 중요도 재평가를 통한 적응 단계별 파라미터 재조정, (c) 소량의 라벨 데이터를 활용한 하이브리드 학습 방안 등을 탐색할 여지가 있다. 종합적으로, 본 연구는 저비용 다언어 적응에 있어 파국적 망각을 효과적으로 억제하면서도 목표 언어 성능을 유지·향상시키는 실용적인 프레임워크를 제시한다는 점에서 학계와 산업계 모두에게 큰 의미를 가진다.
📄 논문 본문 발췌 (Translation)
대형 언어 모델(LLM)의 언어 다양성을 확대하는 것은 전 세계적인 접근성을 위해 필수적이지만, 비용이 많이 드는 특수 목표 언어 라벨링 데이터에 의존하고 적응 과정에서 파국적 망각(catastrophic forgetting)이 발생한다는 문제에 직면해 있다. 우리는 현실적인 저자원 제약 하에서, 라벨이 없는 목표 언어 데이터만을 사용해 지시형 LLM을 적응시키는 문제를 해결한다. 우리는 Source‑Shielded Updates(SSU)라는 선택적 파라미터 업데이트 전략을 도입한다. 소량의 소스 데이터와 파라미터 중요도 점수 방법을 이용해 소스 능력을 유지하는 데 핵심적인 파라미터를 식별하고, 적응 전에 이러한 파라미터를 열(column) 단위로 동결하는 방식을 적용한다. 다섯 개의 유형학적으로 다양한 언어와 7B 및 13B 모델을 대상으로 한 실험에서, SSU가 파국적 망각을 성공적으로 완화함을 확인했다. 소스 단일 언어 작업에서 성능 저하를 평균 3.4%(7B)와 2.8%(13B)로 낮추었으며, 이는 전면 파인튜닝에서 나타난 20.3%와 22.3%에 비해 현저히 적은 수치이다. 또한 SSU는 목표 언어 성능에서도 전면 파인튜닝과 경쟁력 있게 수행했으며, 7B 모델에서는 모든 벤치마크에서, 13B 모델에서는 대부분의 벤치마크에서 전면 파인튜닝을 능가하였다.