어댑터 병합이 잠재적 추론 흔적을 재활성화한다: 메커니즘 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 도메인 적응(adapter)과 명령 정렬(adapter)을 하나의 LLM에 병합할 때, 의도적으로 억제된 추론 마커( 등)가 다시 나타나는 현상을 의료 모델을 중심으로 체계적으로 조사한다. 레이어‑별 CKA, PCA, 선형 프로빙을 통해 갈등이 최종 6~10층에 국한된 저차원 서브스페이스에서 발생함을 밝혀내고, 해당 서브스페이스를 로그잇 공간에서 억제하는 간단한 개입이 추론 누출을 크게 감소시키면서 정확도는 유지되거나 향상됨을 실증한다.

상세 분석

이 연구는 파라미터 효율적 미세조정(PEFT) 기법 중 LoRA 기반 어댑터를 두 단계(도메인 적응(DAPT)과 명령 튜닝(SFT))로 학습한 뒤, 단일 가중치 보간(α)으로 병합했을 때 발생하는 ‘추론 흔적 재활성화’ 현상을 규명한다. 실험 1에서는 α를 0.0~1.0 단계별로 변화시키며, 엄격한 프롬프트(“Do NOT output any reasoning”) 하에서도 , Step 1: 등과 같은 마커가 점차 등장하고, 동시에 명령 준수 지표가 하락하는 비단조적 패턴을 확인한다. 실험 2는 어댑터 버전(v1, v2) 교차 검증을 통해 구현상의 오류가 아니라 근본적인 표현 충돌임을 입증한다. 실험 3은 8개 모델군(Thinking 모델·Non‑Thinking 모델 포함)과 9가지 프롬프트·디코딩 조합을 적용해, 도메인 어댑터가 삽입되면 비Thinking 모델조차도 잠재적 추론 서브스페이스가 활성화돼 마커가 유출된다는 일반성을 제시한다.

메커니즘 분석에서는 세 가지 방법을 결합했다. 첫째, Centered Kernel Alignment(CKA)로 “plain”(추론 허용)과 “strict”(추론 억제) 상황의 레이어별 표현 유사성을 측정했을 때, 초기 레이어는 0.98 이상 유지되지만 마지막 610층에서 급격히 감소한다는 점을 발견했다. 이는 갈등이 네트워크 출력 단계에 집중됨을 의미한다. 둘째, PCA를 차이 벡터 Δₗ = Xₗ − Yₗ에 적용해 첫 번째 주성분(PC1)이 해당 레이어에서 설명 변동량을 크게 차지함을 확인했다. 즉, 갈등 서브스페이스가 저차원(≈12 차원)이라는 증거다. 셋째, 레이어별 선형 프로빙을 통해 토큰 존재 여부를 예측하는 분류기의 AUC가 동일 레이어에서 급상승함을 보여, 해당 서브스페이스가 실제 추론 마커와 강하게 연관된 특성을 인코딩하고 있음을 입증했다.

이후 저자들은 vLLM 내부 로그잇 프로세서를 수정해, 위에서 식별한 저차원 방향 u에 대한 투영을 제거하는(logit − γ·(uᵀz)u) 개입을 설계했다. γ를 0~5까지 증가시키면 “strict” 템플릿에서의 실패율(strict‑fail)이 80% 이상에서 8% 이하로 급감했으며, 정확도는 유지되거나 약간 향상되었다. 특히 Thinking 모델(DeepSeek‑R1‑Distill 등)에서 효과가 두드러졌고, Non‑Thinking 모델에서는 변화가 미미했다. 이는 해당 서브스페이스가 모델별 추론 강도와 직접 연결돼 있음을 시사한다.

마지막으로, 마커 없이도 정답/오답 라벨만을 사용해 정의한 ‘정답‑기반 방향(u_corr)’에 동일한 로그잇 억제 기법을 적용했을 때, 무작위 방향 대비 선택지 엔트로피가 감소하고 정확도가 향상되는 것을 확인했다. 이는 추론 마커가 단순 포맷 현상이 아니라, 실제 의사결정 과정에 영향을 미치는 저차원 축임을 뒷받침한다. 전체적으로 이 논문은 어댑터 병합 시 표현 공간의 비선형 상호작용이 존재함을 최초로 실증하고, 레이어‑특정 서브스페이스를 목표로 하는 간단한 로그잇 개입이 안전하고 효율적인 해결책이 될 수 있음을 제시한다.

어댑터 병합이 잠재적 추론 흔적을 재활성화한다: 메커니즘 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기