크로스레이어 랭크 적응을 위한 고정 텐서 분해

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CRAFT는 사전 학습된 어텐션 가중치를 레이어 차원으로 쌓아 3차 텐서로 만든 뒤, HOSVD 기반 Tucker‑3 분해를 수행하고 모든 분해 인자를 고정한다. 이후 각 인자에 작은 정방 행렬 J를 학습시켜 잔차 보존 방식으로 가중치를 업데이트한다. 이 접근은 파라미터 수를 모델 차원·깊이에 독립적으로 유지하면서 LoRA·PiSSA와 동등하거나 우수한 GLUE 성능을 달성한다.

상세 분석

CRAFT는 기존 PEFT 연구를 두 축으로 통합한다. 첫 번째 축은 그래디언트 업데이트에 텐서 분해를 적용해 레이어 간 상관관계를 포착하는 LoTR·SuperLoRA 계열이며, 두 번째 축은 사전 학습된 가중치 자체를 SVD 등으로 분해해 초기화하는 PiSSA 계열이다. CRAFT는 이 두 접근의 장점을 결합해, 사전 가중치를 레이어 차원(NL), 출력 차원(d_out), 입력 차원(d_in)으로 구성된 3차 텐서 W^α(Q, V)로 만든 뒤, Higher‑Order SVD(HOSVD)를 이용해 완전한 Tucker‑3 분해를 수행한다. 여기서 얻어지는 팩터 행렬 U^(1), U^(2), U^(3)와 코어 텐서 G는 모두 고정된다.

학습 가능한 파라미터는 각 모드별 정방 행렬 J^(n)∈ℝ^{r_n×r_n}뿐이며, 이는 초기에는 항등 행렬에 작은 잡음(ε·E)으로 초기화된다. 적응된 가중치 텐서는
cW^α = W^α + ( G ×₁ (U^(1)J^(1)) ×₂ (U^(2)J^(2)) ×₃ (U^(3)J^(3)) – G ×₁ U^(1) ×₂ U^(2) ×₃ U^(3) )
이라는 잔차 보존 식으로 계산된다. J가 항등 행렬이면 cW^α는 원본 W^α와 동일해, 초기화 시 모델이 완전히 보존되는 특성을 제공한다.

파라미터 효율성 측면에서 CRAFT는 총 학습 파라미터 수가 2·(r₁² + r₂² + r₃²) (Q와 V 두 종류)로, 모델 차원 d와 레이어 수 NL에 전혀 의존하지 않는다. 이는 LoRA(r·d·NL)나 LoTR(r²·NL + r·d)와 비교해 급격히 낮은 복잡도를 보이며, 실험에서는 RoBERTa‑base와 RoBERTa‑large에 대해 41K 파라미터만으로 GLUE 전반에서 경쟁력 있는 결과를 얻었다.

또한 CRAFT는 저장 효율성도 제공한다. 원본 가중치 행렬 대신 압축된 팩터와 코어 텐서, 그리고 작은 J 행렬만 저장하면 되므로, 대규모 모델을 디바이스에 배포할 때 메모리와 디스크 사용량을 크게 줄일 수 있다. 이와 더불어 HOSVD가 제공하는 근사 보증(theoretical approximation guarantees) 덕분에 분해 오차가 제한적이며, 잔차 보존 설계가 학습 안정성을 향상시킨다.

전체적으로 CRAFT는 (1) 사전 가중치의 다중 모드 저차원 구조를 완전 Tucker‑3으로 포착, (2) 모든 분해 인자를 고정하고 최소한의 정방 변환 행렬만 학습, (3) 파라미터·스토리지·학습 효율성을 동시에 달성한다는 점에서 기존 PEFT 방법론에 중요한 진보를 제시한다.

크로스레이어 랭크 적응을 위한 고정 텐서 분해

초록

상세 분석

댓글 및 학술 토론

의견 남기기