어댑터 병합이 잠재적 추론 흔적을 재활성화한다: 메커니즘 분석
초록
본 논문은 도메인 적응(adapter)과 명령 정렬(adapter)을 하나의 LLM에 병합할 때, 의도적으로 억제된 추론 마커(
상세 분석
이 연구는 파라미터 효율적 미세조정(PEFT) 기법 중 LoRA 기반 어댑터를 두 단계(도메인 적응(DAPT)과 명령 튜닝(SFT))로 학습한 뒤, 단일 가중치 보간(α)으로 병합했을 때 발생하는 ‘추론 흔적 재활성화’ 현상을 규명한다. 실험 1에서는 α를 0.0~1.0 단계별로 변화시키며, 엄격한 프롬프트(“Do NOT output any reasoning”) 하에서도
메커니즘 분석에서는 세 가지 방법을 결합했다. 첫째, Centered Kernel Alignment(CKA)로 “plain”(추론 허용)과 “strict”(추론 억제) 상황의 레이어별 표현 유사성을 측정했을 때, 초기 레이어는 0.98 이상 유지되지만 마지막 610층에서 급격히 감소한다는 점을 발견했다. 이는 갈등이 네트워크 출력 단계에 집중됨을 의미한다. 둘째, PCA를 차이 벡터 Δₗ = Xₗ − Yₗ에 적용해 첫 번째 주성분(PC1)이 해당 레이어에서 설명 변동량을 크게 차지함을 확인했다. 즉, 갈등 서브스페이스가 저차원(≈12 차원)이라는 증거다. 셋째, 레이어별 선형 프로빙을 통해
이후 저자들은 vLLM 내부 로그잇 프로세서를 수정해, 위에서 식별한 저차원 방향 u에 대한 투영을 제거하는(logit − γ·(uᵀz)u) 개입을 설계했다. γ를 0~5까지 증가시키면 “strict” 템플릿에서의 실패율(strict‑fail)이 80% 이상에서 8% 이하로 급감했으며, 정확도는 유지되거나 약간 향상되었다. 특히 Thinking 모델(DeepSeek‑R1‑Distill 등)에서 효과가 두드러졌고, Non‑Thinking 모델에서는 변화가 미미했다. 이는 해당 서브스페이스가 모델별 추론 강도와 직접 연결돼 있음을 시사한다.
마지막으로, 마커 없이도 정답/오답 라벨만을 사용해 정의한 ‘정답‑기반 방향(u_corr)’에 동일한 로그잇 억제 기법을 적용했을 때, 무작위 방향 대비 선택지 엔트로피가 감소하고 정확도가 향상되는 것을 확인했다. 이는 추론 마커가 단순 포맷 현상이 아니라, 실제 의사결정 과정에 영향을 미치는 저차원 축임을 뒷받침한다. 전체적으로 이 논문은 어댑터 병합 시 표현 공간의 비선형 상호작용이 존재함을 최초로 실증하고, 레이어‑특정 서브스페이스를 목표로 하는 간단한 로그잇 개입이 안전하고 효율적인 해결책이 될 수 있음을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기