경량 어댑터로 자기 해석 능력 강화: 벡터‑라벨 페어 학습

경량 어댑터로 자기 해석 능력 강화: 벡터‑라벨 페어 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델을 전혀 수정하지 않고, 희소 자동인코더(​SAE) 특징 및 대비 활성화 벡터와 같은 해석 가능성 아티팩트를 이용해 가벼운 어댑터만 학습함으로써 모델 자체가 내부 상태를 신뢰성 있게 설명하도록 만든다. 스칼라 어피니 어댑터(​d_model+1 파라미터)만으로도 70B 규모에서 라벨 생성 정확도를 63%→71%로 올리고, 토픽 식별 recall@1을 1%→94%로 끌어올리며, 멀티홉 추론 시 프롬프트와 응답에 나타나지 않는 “브릿지 엔티티”를 복원한다. 개선의 85%는 편향 벡터 하나에 기인하고, 단순 어댑터가 복잡한 변형보다 일반화가 좋다. 모델 규모가 커질수록 자기 해석 성능이 더 크게 향상되며, 이는 모델 자체 능력 향상과는 별개로 나타난다.

상세 분석

이 연구는 기존 자기 해석 기법이 하이퍼파라미터(특히 스케일) 민감도로 인해 일관된 결과를 내지 못한다는 문제점을 정확히 짚어낸다. 저자들은 언어 모델을 전혀 파인튜닝하지 않고, 내부 활성화 벡터와 라벨(텍스트) 쌍이라는 “해석 가능성 아티팩트”를 감독 데이터로 활용한다. 어댑터는 입력 벡터 h에 대해 f(h)=α·h+b 형태의 스칼라 어피니 변환만을 적용하며, 파라미터 수는 모델 차원 d와 1개의 편향(b)으로 총 d+1개에 불과하다. 이 간단한 구조가 왜 효과적인지 몇 가지 핵심 인사이트가 있다. 첫째, 전체 차원을 동일하게 스케일링하고 오프셋을 조정하는 방식은 모든 방향에 동일하게 적용돼 과도한 메모리화(memory) 위험을 최소화한다. 따라서 어댑터가 특정 라벨을 외우는 것이 아니라, 벡터 공간 전체의 의미 구조를 학습한다는 점에서 일반화가 뛰어나다. 둘째, 실험 결과는 편향 벡터(b)만으로도 전체 성능 향상의 85%를 설명한다는 점을 강조한다. 이는 대부분의 개선이 “전체 벡터를 평균적으로 이동”시키는 단순 변환에서 비롯된다는 의미이며, 복잡한 저차원 변환(예: 저랭크, 풀랭크)은 오히려 과적합을 초래한다. 셋째, SAE 특징에 대해 풀랭크 어댑터는 높은 차원의 lookup table처럼 동작해 검증 손실이 크게 악화되지만, 대비 활성화 벡터는 내재 차원이 낮아 풀랭크 변환이 오히려 좋은 성능을 보인다. 이는 데이터의 내재 차원과 어댑터 복잡도 사이의 상호작용을 잘 보여준다. 넷째, 스케일 민감도 문제를 크게 완화한다. 기존 자기 해석에서는 각 라벨에 맞는 스케일을 수동으로 탐색해야 했지만, 어댑터 학습 후에는 6가지 고정 스케일을 그리드 탐색하는 정도로 충분히 좋은 결과를 얻는다. 마지막으로, 모델 규모와 자기 해석 성능 사이의 관계를 정량화했다. Qwen‑2.5 시리즈(7B→72B)에서 “Taboo” 베이스라인(모델 자체가 토픽을 이름 없이 설명) 대비 어댑터 기반 자기 해석이 더 빠르게 성장함을 보여, 규모가 커질수록 모델 내부에 내재된 의미 정보가 더 풍부해짐을 확인한다. 전체적으로 이 논문은 “해석 가능성 아티팩트를 재활용해 모델 자체가 스스로를 설명하도록 훈련한다”는 새로운 패러다임을 제시하며, 최소 파라미터로도 강력한 자기 해석을 구현할 수 있음을 실증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기