압축감지 기반 대형 언어 모델 적응
초록
CoSA는 고정된 랜덤 투사 행렬과 소형 학습 가능한 코어 행렬을 이용해 가중치 업데이트를 압축감지 방식으로 표현하는 새로운 파라미터 효율 적응 기법이다. 기존 LoRA의 저랭크 제한을 넘어, 무작위 사전 정의된 사전(dictionary)을 통해 더 풍부한 표현력을 제공하면서도 파라미터 수와 메모리 사용량을 크게 줄인다.
상세 분석
본 논문은 파라미터 효율 파인튜닝(PEFT) 분야에서 저랭크 가정이 갖는 한계를 지적하고, 압축감지(Compressed Sensing, CS) 이론을 적용한 새로운 프레임워크인 CoSA를 제안한다. CoSA는 각 레이어의 가중치 업데이트 ΔW를 ΔW = L Y R 형태로 모델링한다. 여기서 L∈ℝ^{m×a}와 R∈ℝ^{b×n}은 사전에 고정된 랜덤 투사 행렬이며, Y∈ℝ^{a×b}만이 학습 가능한 코어 파라미터이다. 이 구조는 기존 LoRA가 A∈ℝ^{r×n}, B∈ℝ^{m×r}와 같이 저랭크 행렬 두 개를 학습하는 방식과 달리, Kronecker 곱 Ψ = Rᵀ⊗L을 사전(dictionary)로 사용한다. ΔW를 벡터화하면 vec(ΔW)=Ψ·vec(Y) 가 되며, 이는 CS의 합성 모델 x = Ψα와 동일한 형태이다. 논문은 Ψ가 독립적인 랜덤 행렬의 Kronecker 곱일 때 RIP(Restricted Isometry Property)를 만족한다는 정리(정리 4.1)를 제시하고, 이는 파라미터 공간의 기하학적 구조가 손실 없이 압축된 차원으로 매핑됨을 보장한다. RIP가 보장되면 작은 변화가 코어 파라미터 α에 대해 입력 가중치 ΔW에 거의 동일하게 반영되어 최적화가 안정적이며, 학습 과정에서 기울기 소실이나 급격한 스케일 변동을 방지한다.
또한, CoSA는 파라미터 수가 a·b 로, LoRA의 (m+r)·r 보다 현저히 적다. 실험에서는 a와 b를 각각 64~256 정도로 설정해도 충분히 좋은 성능을 얻으며, 이는 대규모 모델(예: LLaMA‑13B, Qwen‑7B)에서도 메모리와 연산 비용을 크게 절감한다. 저자들은 10개의 NLU·NLG 벤치마크와 5개의 모델군(RoBERTa, LLaMA, Qwen 등)에서 CoSA가 LoRA, AdaLoRA, DoRA, VERA 등 최신 PEFT 방법들을 일관되게 능가하거나 동등한 성능을 보임을 입증한다. 특히, singular value가 고르게 분포된 태스크에서 CoSA는 저랭크 기반 방법보다 월등히 높은 정확도와 빠른 수렴 속도를 기록한다.
이와 더불어, CoSA는 사전 정의된 랜덤 사전이 고정되어 있기 때문에 여러 태스크 간에 동일한 L, R을 재사용할 수 있다. 이는 멀티태스크 학습이나 연속 학습 시 파라미터 공유와 메모리 절감 효과를 제공한다. 또한, 랜덤 사전은 초기화 단계에서 별도의 복잡한 SVD 기반 초기화가 필요 없으며, 단순 가우시안 초기화만으로도 충분히 좋은 최적화 경로를 제공한다는 점이 실험적으로 확인되었다.
전반적으로 CoSA는 압축감지 이론을 PEFT에 성공적으로 접목함으로써, 저랭크 제한을 넘어서는 표현력, 이론적 안정성(RIP 보장), 그리고 실용적인 파라미터·메모리 절감이라는 세 마리 토끼를 동시에 잡았다.
댓글 및 학술 토론
Loading comments...
의견 남기기