DoRAN: 노이즈와 보조 네트워크로 안정화된 가중치 분해 저차원 적응
초록
DoRAN은 DoRA의 정규화에 학습 가능한 노이즈 τ를 삽입해 분모의 특이점을 완화하고, 하이퍼네트워크를 통해 쿼리·밸류 어댑터를 동적으로 생성함으로써 학습 안정성과 샘플 효율성을 동시에 향상시킨 파라미터‑효율 파인튜닝 기법이다.
상세 분석
DoRAN은 두 가지 핵심 메커니즘으로 DoRA의 한계를 보완한다. 첫 번째는 가중치 분해식 (W = mW_0 + BA) 의 정규화 분모에 학습 가능한 양의 스칼라 τ를 더하는 것으로, 이는 “노이즈 주입”이라 부른다. 기존 DoRA는 (|W_0+BA|c) 가 매우 작아지면 그래디언트가 폭발하는 특이점에 취약했지만, τ가 존재하면 분모가 (|W’|c+τ) 가 되어 언제나 양수이며, τ의 크기에 따라 정규화 강도를 자동 조절한다. 그래디언트 분석을 통해 전체 손실에 대한 (∂L/∂W’) 를 직교 성분 (G{\perp})와 평행 성분 (proj{W’}(G)) 로 분해했을 때, 직교 성분은 (m/(|W’|_c+τ)) 로 스케일되고, 평행 성분은 (τ/(|W’|_c+τ)) 로 감쇠된다. 즉 τ→0 일 때는 DoRA와 동일하게 평행 성분이 사라져 순수 방향 학습만 수행하고, τ≫|W’|_c 일 때는 평행 성분이 지배해 선형 스케일링 형태가 된다. 이 연속적인 전이 덕분에 모델은 훈련 초기에 안정적인 정규화와 이후에 자유로운 크기 조정을 자연스럽게 선택한다.
두 번째 메커니즘은 정적 저차원 행렬 A, B 를 직접 학습하는 대신, 두 개의 작은 피드포워드 하이퍼네트워크 (g_A, g_B) 를 통해 동적으로 생성한다. 입력 임베딩 (A’, B’) 와 공유된 첫 레이어 (W_{A1}, W_{B1}) 를 사용해 공통 특징을 추출하고, 각각의 두 번째 레이어 (W_{A2}, W_{B2}) 가 쿼리와 밸류 어댑터에 특화된 행렬을 출력한다. 이 설계는 (i) 쿼리·밸류 사이의 파라미터를 자연스럽게 결합해 정보 공유를 촉진하고, (ii) 여러 헤드에 하이퍼네트워크를 공유함으로써 전체 파라미터 수를 최소화한다. 이론적으로는 하이퍼네트워크가 MoE(전문가 혼합) 구조와 동등함을 보이며, 전문가 수가 L 일 때 학습 복잡도가 exp(L) 에서 poly(L) 으로 감소한다는 샘플 효율성 향상을 증명한다.
실험에서는 비전 벤치마크(VTAB‑1K, FGVC)와 언어 모델(LLaMA‑7B/13B 기반 상식 추론)에서 DoRAN이 LoRA, DoRA, 그리고 최신 PEFT 변형들보다 일관되게 높은 정확도와 빠른 수렴을 보였다. 특히 τ가 자동으로 적절한 크기로 조정되는 과정에서 훈련 손실이 급격히 진동하지 않으며, 하이퍼네트워크를 통한 어댑터 생성이 파라미터당 성능을 크게 끌어올렸다. 추가적인 연산 비용은 거의 없으며, 메모리 사용량도 기존 방법과 동등하거나 약간 감소한다.
요약하면, DoRAN은 (1) 학습 가능한 노이즈 τ 로 정규화의 특이점을 제거하고 그래디언트를 안정화, (2) 하이퍼네트워크 기반 동적 저차원 행렬 생성으로 쿼리·밸류 간 파라미터 결합을 실현, (3) 이 두 요소가 상호 보완적으로 작용해 이론적 샘플 효율성 향상과 실험적 성능 개선을 동시에 달성한다는 점에서 기존 PEFT 연구에 중요한 진전을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기