대규모 학습 데이터 기여도 추정을 위한 저랭크 영향 함수

대규모 학습 데이터 기여도 추정을 위한 저랭크 영향 함수
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LoRIF는 훈련 데이터 기여도(Training Data Attribution)를 고품질로 유지하면서 저장·메모리 비용을 크게 줄이는 방법이다. 그래디언트의 저랭크 구조를 이용해 각 샘플의 투사된 그래디언트를 rank‑c 형태로 저장하고, Hessian 역행렬을 truncated SVD와 Woodbury 항등식으로 r 차원 서브스페이스에 근사한다. 결과적으로 저장량은 O(c√D)·L, 메모리는 O(D·r)로 감소하고, 0.1B~70B 파라미터 모델에 대해 2×~20× 저장 절감 및 1.3×~20× 빠른 질의 속도를 달성한다.

상세 분석

LoRIF는 기존의 TRAK·LoGRA와 같은 투사 기반 영향 함수 방법이 직면한 두 가지 근본적인 병목을 해결한다. 첫 번째는 N개의 훈련 샘플에 대해 D 차원의 투사 그래디언트를 그대로 저장해야 하는 I/O 비용이다. LoRIF는 각 레이어별 투사 그래디언트를 rank‑c 행렬 u·vᵀ 형태로 근사함으로써 저장량을 d₁·d₂ → c·(d₁+d₂) 로 감소시킨다. 여기서 c는 매우 작은 정수(보통 1~4)이며, 실험 결과 c=1일 때도 충분히 의미 있는 기여도 점수를 얻을 수 있음을 보여준다. 이 저랭크 근사는 블록 파워 이터레이션을 통해 빠르게 얻어지며, 저장·로드 시 I/O 양을 O(c√D) 로 줄여 대규모 데이터베이스에서도 실시간 질의가 가능하게 만든다.

두 번째 병목은 D×D 규모의 Hessian 역행렬을 직접 형성·저장해야 하는 메모리 요구사항이다. LoRIF는 전체 그래디언트 행렬 G(N×D)를 랜덤화된 truncated SVD로 G≈U_r Σ_r V_rᵀ (r≪min(N,D)) 로 압축한다. 이후 Hessian을 V_r Σ_r² V_rᵀ + λI 로 근사하고, Woodbury 항등식을 적용해 (V_r Σ_r² V_rᵀ + λI)⁻¹ 를 λ⁻¹I − λ⁻¹V_r (Σ_r⁻² + λ⁻¹I_r)⁻¹ V_rᵀ 로 변환한다. 이 과정은 D² 메모리를 O(D·r) 로 감소시키며, r은 보통 수백 수준으로 충분히 작다. 또한, G를 실제 메모리에 올리지 않고 저장된 low‑rank factor(u,v) 로부터 배치 단위로 재구성하면서 SVD를 수행하므로, 전체 파이프라인이 메모리 제한을 크게 초과하지 않는다.

LoRIF는 이러한 두 저랭크 근사를 결합해, D를 크게 늘려도 저장·메모리 비용이 선형적으로 증가하지 않도록 만든다. 실험에서는 GPT‑2‑small(124M), Olmo‑7B, Apertus‑70B 모델에 대해 D를 10⁵10⁶ 수준까지 확장했으며, LoGRA 대비 2.320배 저장 절감, 1.3~20배 질의 속도 향상을 기록했다. 품질 측면에서는 LDS와 Tail‑Patch 지표에서 LoGRA와 동등하거나 더 높은 점수를 얻었다. 특히, c=1, r=64 정도의 설정만으로도 충분히 높은 기여도 정확도를 확보했으며, 저장 예산이 제한된 상황에서는 D를 늘리는 것이 c를 늘리는 것보다 효율적이라는 실험적 인사이트를 제공한다.

이 논문은 저랭크 구조가 신경망 그래디언트와 Hessian에 내재한다는 가정을 실용적인 시스템 설계에 적용한 첫 사례이며, 향후 대규모 언어 모델·멀티모달 모델에 대한 데이터 디버깅, 데이터 중독 탐지, 샘플 선택 등 다양한 응용에 직접 활용될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기