동적 지식 뉴런 추적으로 LLM 추론 효율을 극대화하는 DART

동적 지식 뉴런 추적으로 LLM 추론 효율을 극대화하는 DART
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DART는 대규모 언어 모델의 Feed‑Forward Network(FFN)에서 컨텍스트 변화에 따라 실시간으로 뉴런 마스크를 업데이트하는 경량, 학습‑무료 프루닝 기법이다. 어텐션 점수 분포의 변화를 감지해 지식 드리프트를 탐지하고, 레이어별 민감도와 깊이‑가중치를 활용해 최적의 희소성 비율을 동적으로 할당한다. 70 % FFN 희소성에서도 LLAMA‑3.1‑8B의 정확도를 14.5 % 향상시키고, 요약 작업에서는 ROUGE‑L을 3배 이상 개선한다. 메모리 오버헤드는 10 MB 이하, FLOPs 증가율은 0.1 %에 불과하다.

상세 분석

본 논문은 LLM의 파라미터 중복성을 특히 FFN에 집중해 동적 프루닝을 구현한 DART(Dynamic Attention‑Guided Runtime Tracing)를 제안한다. 기존 정적 프루닝은 사전 캘리브레이션 데이터에 의존해 전역 마스크를 생성하므로, 입력에 따라 활성화되는 지식 뉴런이 변하는 상황을 반영하지 못한다. 저자는 이러한 한계를 ‘지식 드리프트’라는 현상으로 정의하고, 어텐션 레이어의 출력 분포가 급격히 변할 때 이를 감지해 마스크를 재계산한다. 핵심 기술은 세 가지로 나뉜다. 첫째, 레이어별 민감도 점수 S(l)ₜ를 코사인 유사도와 변화량을 결합해 정의하고, 이를 정규화해 각 레이어의 상대 중요도 I(l)ₜ를 산출한다. 둘째, 깊이‑가중치 D(l)를 도입해 초기와 최종 레이어는 보존하고 중간 레이어에 더 높은 희소성을 부여한다. 셋째, 전체 희소성 목표 ρ에 맞춰 I(l)ₜ·D(l) 비율로 예산을 반복적으로 재분배하는 알고리즘을 제시한다. 마스크는 토큰 윈도우 τ 동안 누적된 뉴런 활성도 sᵢ를 기반으로 상위 k개 뉴런만 유지하도록 만든다. 어텐션 점수 분포의 변화를 감지하는 ‘컨텍스트 스위치 디텍터’는 현재 어텐션 출력과 초기 프리픽스의 중심값 간 KL‑divergence 혹은 JS‑divergence가 사전 정의된 임계값을 초과하면 마스크를 재생성한다. 실험에서는 LLAMA‑3.1‑8B와 LLAMA‑3.2‑3B를 포함한 10개 벤치마크에서 정적 프루닝 대비 정확도·ROUGE‑L 모두 크게 개선되었으며, 메모리 사용량은 10 MB 이하, FLOPs 오버헤드는 0.1 %에 불과해 실제 서비스 적용 가능성을 입증한다. 또한, DART는 별도 학습 없이 사전 훈련된 모델에 바로 적용 가능하므로, 다양한 도메인·언어에 대한 범용성도 확보한다. 이와 같이 어텐션 기반 컨텍스트 감지와 레이어‑가중치 기반 희소성 배분을 결합한 DART는 동적 프루닝 분야에서 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기