13개의 파라미터로 추론 능력 끌어올리기
초록
TinyLoRA는 기존 LoRA를 한 단계 더 축소해 단 13개의 bf16 파라미터(26 바이트)만으로 8 B 규모 Qwen2.5 모델을 GSM8K에서 91 % 정확도에 도달하게 한다. 핵심은 RL 기반 학습이 SFT보다 훨씬 정보 효율적이며, 파라미터 공유와 고정 랜덤 텐서를 이용해 업데이트 차원을 1로 압축한다는 점이다. 실험은 GSM8K, MATH500, AIME, AMC 등 다양한 수학 벤치마크에서 90 % 이상 성능 회복을 확인한다.
상세 분석
본 논문은 “파라미터 효율적인 추론 학습”이라는 목표 아래, 기존 LoRA가 최소 1 M 파라미터(랭크 = 1) 정도 필요하다는 한계를 정량적으로 검증하고, 이를 극단적으로 축소한 TinyLoRA를 제안한다. TinyLoRA는 두 단계의 설계 선택을 포함한다. 첫째, 기존 LoRA‑XS가 SVD 기반으로 고정된 좌·우 특이벡터(U, V)와 학습 가능한 r × r 행렬 R만을 업데이트하는 구조를 더 나아가, R을 저차원 벡터 v∈ℝᵘ와 고정 랜덤 텐서 Pᵢ(ℝʳˣʳ)로 대체한다. 이렇게 하면 각 모듈당 학습 파라미터 수가 O(u)로 감소하고, u=1이면 단일 실수 하나만 학습한다. 둘째, 모듈 간 가중치 공유(weight‑tying)를 도입해 전체 모델에서 하나의 v만을 학습하도록 설계한다. 결과적으로 전체 파라미터 업데이트는 O(n m u / n_tie)이며, n_tie을 모든 모듈에 대해 동일하게 하면 전체 파라미터 수는 1이 된다.
학습 측면에서는 강화학습(RL)과 지도학습(SFT)의 정보 효율성을 비교한다. 논문은 SFT가 토큰 수준의 시연 데이터를 그대로 학습하므로 “불필요한 잡음”이 많이 포함된다고 주장한다. 반면 RL은 매 에포크마다 새로운 샘플을 생성하고, 보상 신호만을 학습 목표로 삼아 신호‑잡음 비율이 크게 개선된다. 이론적 분석을 통해 RL이 동일한 성능을 달성하기 위해 요구되는 정보량이 SFT보다 훨씬 적으며, 따라서 파라미터가 극단적으로 제한된 상황에서도 충분히 학습이 가능함을 보인다.
실험 결과는 이러한 가설을 강력히 뒷받침한다. Qwen2.5‑7B‑Instruct 모델에 TinyLoRA와 GRPO(강화학습) 를 적용했을 때, 13개의 파라미터만으로 GSM8K에서 91 % 정확도를 달성했으며, 이는 전체 파라미터를 미세조정한 경우와 5 % 이내 차이이다. 파라미터 수를 10 K 이하로 낮춰도 90 % 이상의 성능 회복을 확인했으며, 특히 196개의 파라미터만으로도 6개 수학 벤치마크에서 87 %의 절대 성능 향상을 유지한다. 반면 동일한 파라미터 규모에서 SFT는 거의 베이스라인 수준에 머물러, RL이 정보 밀도가 높은 업데이트를 제공한다는 결론을 도출한다.
또한 모델 규모와 파라미터 효율성 사이의 관계를 조사한 결과, 모델이 클수록 동일한 성능 목표를 달성하기 위한 업데이트 크기가 감소한다는 “규모‑효율성” 트렌드가 확인된다. 8 B 모델에서는 13 파라미터만으로도 95 % 수준의 최고 성능에 근접했으며, 3 B 모델에서도 1 KB 이하의 파라미터로 의미 있는 성능 향상이 가능했다.
마지막으로 구현상의 도전 과제로, vLLM이 LoRA‑rank ≥ 4만 지원하는 점을 해결하기 위해 훈련 단계에서는 병합된 가중치를 사용하고, 추론 단계에서만 LoRA 가중치를 적용하는 “합성 커널” 방식을 도입했다. 이는 TinyLoRA와 같은 초소형 어댑터를 실제 서비스 환경에 적용할 수 있는 실용적인 방법을 제시한다.
요약하면, TinyLoRA는 파라미터 수를 10³ → 10⁰ 수준으로 극단적으로 축소하면서도 RL 기반 학습을 통해 기존 LoRA 대비 1000배 적은 파라미터로도 높은 추론 성능을 유지한다는 혁신적인 접근을 제시한다. 이는 대규모 언어 모델을 개인화하거나 멀티‑테넌시 환경에서 경량 어댑터를 배포하려는 실무적 요구에 직접적인 해결책을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기