오쏘머지: 직교군을 활용한 대규모 언어 모델 통합

오쏘머지: 직교군을 활용한 대규모 언어 모델 통합
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 유클리드 공간에서 가중치 벡터를 단순히 더하는 방식이 프리트레인된 모델의 구면 에너지와 같은 기하학적 특성을 파괴한다는 문제를 지적한다. 이를 해결하기 위해 저자들은 직교군(Orthogonal Group) 위의 리만 다양체에서 모델을 병합하는 ‘OrthoMerge’를 제안한다. OFT(Orthogonal Finetuning)로 얻은 직교 행렬을 리 대수(so(d))로 매핑해 크기 보정 평균을 수행하고, 다시 켈리 변환을 통해 직교군으로 복귀한다. 비‑OFT 모델에 대해서는 직교‑잔차 분해(Orthogonal‑Residual Decoupling) 전략을 도입해 직교 성분은 위의 방법으로, 잔차는 기존 가법 병합으로 처리한다. 실험 결과, 다중 과제 병합 시 재앙적 망각을 완화하고 전반적인 성능을 유지함을 보인다.

상세 분석

이 논문은 LLM 파인튜닝 후 다수의 전문가 모델을 하나로 통합하는 모델 병합(model merging) 문제를 새로운 기하학적 관점에서 접근한다. 기존 연구들은 파인튜닝된 가중치와 베이스 모델 사이의 차이를 ‘태스크 벡터’라 보고, 이를 유클리드 공간에서 선형 평균, 스파시피케이션, SVD 기반 저차원 근사 등으로 합산한다. 이러한 방식은 가중치가 원래 갖고 있던 ‘구면 에너지’—즉 뉴런 간 각도 관계와 같은 고차원 구면 구조—를 무시하고, 서로 상충하는 업데이트가 상쇄돼 병합 후 모델이 원래 프리트레인된 상태에 과도하게 회귀하는 현상을 초래한다.

저자들은 이 문제를 해결하기 위해 ‘직교군’이라는 리만 다양체 위에서 병합을 수행한다. OFT는 파인튜닝 과정에서 가중치를 $W = R W_0$ 형태로 표현하며, 여기서 $R$은 직교 행렬이다. 직교 행렬을 직접 평균하면 정규성(orthogonality)이 깨지므로, 저자는 $R$을 스큐-대칭 행렬 $Q$(Lie algebra $\mathfrak{so}(d)$)로 변환한다. $Q$는 무한소 회전 생성자로, Frobenius norm $|Q|F$가 회전 각도의 크기를 나타낸다. 다수의 $Q_i$를 단순 평균하면 서로 다른 방향의 회전이 상쇄돼 $|Q{\text{mean}}|F$가 감소한다는 ‘크기 붕괴(magnitude collapse)’ 문제를 발견한다. 이를 방지하기 위해 각 $Q_i$의 노름 합을 평균 노름으로 나눈 스케일링 팩터 $c = \frac{\sum_i |Q_i|F}{|\sum_i Q_i|F}$를 도입하고, $Q{\text{merged}} = c \cdot \frac{1}{N}\sum_i Q_i$ 로 보정한다. 마지막으로 켈리 변환 $R{\text{merged}} = (I+Q{\text{merged}})(I-Q_{\text{merged}})^{-1}$을 적용해 직교군으로 복귀하고, $W_{\text{merged}} = R_{\text{merged}} W_0$ 를 얻는다. 이 과정은 $O(d^2)$ 복잡도로 구현 가능해 대규모 모델에도 실용적이다.

비‑OFT 모델(LoRA, 전통적인 전면 파인튜닝 등)에도 적용하기 위해 ‘직교‑잔차 분해’ 프레임워크를 제시한다. 먼저 목표 행렬 $W_{\text{target}}$(전역 디코플링 또는 충돌‑인식 디코플링) 를 정의하고, Orthogonal Procrustes 문제 $\min_R |W_{\text{target}} - R W_0|F$ 를 풀어 최적 직교 변환 $R_i$ 를 얻는다. $R_i$ 를 다시 $Q_i$ 로 변환해 위와 동일한 크기 보정 평균을 수행한다. 동시에 잔차 $\rho_i = W_i - R_i W_0$ 를 계산해 기존 가법 병합(예: Task Arithmetic, TIES) 으로 합산한다. 최종 모델은 $W{\text{final}} = R_{\text{merged}} W_0 + \rho_{\text{merged}}$ 로 구성된다.

실험에서는 다중 도메인(자연어 이해, 코드 생성, 의료 텍스트 등)에서 OrthoMerge가 기존 선형 병합 대비 재앙적 망각을 크게 감소시키고, 개별 태스크 성능을 거의 유지하거나 소폭 향상시킴을 보였다. 특히 OFT 기반 모델들 사이에서는 직교 병합만으로도 충분히 높은 성능을 달성했으며, 비‑OFT 모델에서도 직교‑잔차 분해가 기존 방법에 비해 평균 2~4%의 정확도 상승을 제공한다.

이 논문은 모델 병합을 ‘선형 연산’이 아닌 ‘리만 기하학적 연산’으로 재정의함으로써, 파라미터 공간의 내재된 구조를 보존하고, 다중 태스크 통합 시 발생하는 파라미터 충돌을 근본적으로 완화한다는 점에서 의미가 크다. 또한 Lie algebra와 켈리 변환을 활용한 효율적인 구현은 실제 산업 현장에서 대규모 LLM을 다중 목적에 맞게 재구성하는 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기