MOMA: 추가 파라미터 없이 모델 병합을 위한 마스크드 정규 직교 정렬

MOMA: 추가 파라미터 없이 모델 병합을 위한 마스크드 정규 직교 정렬
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 모델 병합 시 인코더와 고정된 분류 헤드 사이에 발생하는 기하학적 불일치를 주로 직교 변환으로 설명하고, 이를 해결하기 위해 전역 마스크와 작업별 직교 변환을 공동 최적화하는 MOMA 방식을 제안한다. 학습된 변환은 기존 가중치에 흡수되어 파라미터와 추론 비용이 전혀 증가하지 않으며, 최신 방법들과 동등한 성능을 달성한다.

상세 분석

MOMA 논문은 모델 병합이 다중 작업 학습을 대체할 수 있는 실용적인 방법임을 전제한다. 기존의 파라미터 공간 평균(Weight Averaging)이나 Task Arithmetic은 인코더 가중치를 단순히 합산하지만, 실제로는 파인튜닝된 각 작업의 분류 헤드가 고정된 상태에서 인코더 출력이 헤드와 정렬되지 않아 성능 저하가 발생한다. 저자들은 이 현상을 시각화(t‑SNE)와 K‑NN 평가를 통해, 클래스 구분을 위한 핵심 정보는 여전히 인코더 출력에 보존돼 있으나, 좌표계가 헤드가 기대하는 방향과 회전(orthogonal) 차이를 보인다고 규명한다.

이를 검증하기 위해 다양한 변환 제약(아핀, 선형, 스케일, 직교 등)을 적용한 정렬 실험을 수행한다. 특히 직교 변환만을 허용했을 때 손실이 크게 감소하고, 정렬된 인코더와 기존 헤드 조합이 파인튜닝 모델과 거의 동일한 정확도를 보인다. 이는 인코더와 헤드 사이의 불일치가 비선형 왜곡이 아니라, 내적을 보존하는 회전 변환으로 충분히 설명될 수 있음을 의미한다.

MOMA는 이러한 통찰을 바탕으로 두 가지 핵심 구성요소를 도입한다. 첫째, 전역 마스크 벡터를 학습해 불필요한 파라미터를 억제하고, 병합된 인코더의 자유도를 제한함으로써 최적화 안정성을 높인다. 둘째, 각 작업마다 직교 행렬 (Q_t) 를 학습해 인코더 출력 (g(x;\theta_m)) 를 회전시킨 뒤, 기존 분류 헤드 (h(\cdot;\phi_t)) 에 바로 적용한다. 직교 행렬은 내적을 보존하므로, 회전 후의 출력과 헤드 가중치의 내적을 그대로 유지할 수 있다. 중요한 점은 (Q_t) 와 마스크를 기존 가중치에 흡수한다는 것이다. 구체적으로, 회전 행렬을 헤드 가중치 (W_t) 에 좌측 곱해 새로운 헤드 가중치 (W’_t = W_t Q_t) 로 교체하고, 마스크는 파라미터 (\theta_m) 에 element‑wise 곱해 최종 병합 가중치를 만든다. 이렇게 하면 모델 구조가 변하지 않으며, 추가 파라미터나 추론 시 연산 비용이 전혀 증가하지 않는다.

실험에서는 NLP(예: DBpedia, AG News)와 CV(예: CIFAR‑100, ImageNet‑subset) 등 다양한 데이터셋에 대해 기존 최첨단 방법들(Weight Averaging, Task Arithmetic, Surgery, Ties 등)과 비교한다. MOMA는 대부분의 경우 1~2%p 정도의 정확도 차이를 메우면서도 파라미터 증가가 0인 점을 강조한다. 특히 K‑NN 기반 평가에서 병합 인코더가 높은 성능을 보이는 점은, 직교 정렬이 실제로 정보 손실이 아니라 정렬 문제임을 다시 한 번 입증한다.

이 논문은 모델 병합 연구에 두 가지 중요한 시사점을 제공한다. 첫째, 파라미터 공간에서의 단순 평균이 반드시 최적이 아니며, 비선형 학습 단계에서 발생하는 회전 변환을 고려해야 함을 보여준다. 둘째, 추가 파라미터 없이도 정렬을 수행할 수 있는 방법론을 제시함으로써, 모델 병합이 추론 효율성을 유지하면서도 다중 작업 성능을 보장할 수 있음을 증명한다. 앞으로의 연구는 이러한 직교 정렬을 더 일반적인 변환(예: 스케일·시프트)과 결합하거나, 마스크 학습을 자동화해 다양한 아키텍처에 적용하는 방향으로 확장될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기