GRIT 기하학 인식 파라미터 효율 미세조정과 KFAC 사전조건 및 동적 차원 적응
읽는 시간: 2 분
...
📝 원문 정보
- Title: GRIT – Geometry-Aware PEFT with K-FACPreconditioning, Fisher-Guided Reprojection, andDynamic Rank Adaptation
- ArXiv ID: 2601.00231
- 발행일: 2026-01-01
- 저자: Pritish Saha, Chandrav Rajbangshi, Rudra Goyal, Mohit Goyal, Anurag Deo, Biswajit Roy, Ningthoujam Dhanachandra Singh, Raxit Goswami, Amitava Das
📝 초록 (Abstract)
파라미터 효율 미세조정(PEFT)은 대형 언어 모델을 특정 도메인이나 응용에 맞추는 기본 방법이 되었지만, LoRA와 QLoRA 같은 기존 기법은 대부분 기하학 정보를 무시하고 무작위로 정해진 저차원 서브스페이스 안에서 1차 최적화만 수행한다. 이는 불필요한 업데이트 예산을 늘리고 약하게 제약된 방향으로의 드리프트를 확대한다. 본 논문은 이러한 한계를 극복하기 위해 GRIT라는 동적·곡률 인식 LoRA 방식을 제안한다. GRIT는 LoRA 파라미터화를 유지하면서 (1) K‑FAC을 이용해 랭크 공간에서 자연 기울기를 근사하는 사전조건을 적용하고, (2) 주기적으로 저차원 기반을 피셔 행렬의 주요 고유방향으로 재투영해 드리프트를 억제하며, (3) 스펙트럼 정보를 이용해 효과적인 랭크를 자동으로 조정한다. 결과적으로 고신호·저간섭 방향으로 업데이트가 집중되고, 실제 파라미터 수는 평균 46 %(작업별 25 %~80 %) 감소하면서도 LoRA·QLoRA와 동등하거나 우수한 성능을 달성한다. 또한, 곡률 기반의 드리프트 모델링을 통해 GRIT가 LoRA보다 기억 손실을 적게 일으키는 것을 실험적으로 확인했으며, Orthogonal‑LoRA, IA³, DoRA/Eff‑FT, Shampoo 등 강력한 PEFT·옵티마이저 대비 파라미터‑업데이트 대비 보존 경계에서도 앞선다. 핵심 메시지는 “어디로 움직이는가”가 “얼마나 움직이는가”만큼 중요하다는 점이며, 손실, 곡률, 서브스페이스를 공동 최적화하는 새로운 PEFT 설계 방향을 제시한다.💡 논문 핵심 해설 (Deep Analysis)
