LLM 해석의 함정: 주의와 임베딩 해석이 왜 무너지는가
초록
본 논문은 대형 언어 모델(LLM)의 내부 의미 구조를 탐색하기 위해 널리 사용되는 두 가지 해석 기법—주의 기반 관계 추론과 임베딩 속성 추론—을 재현하고, 핵심 가정들을 체계적으로 검증한다. 실험 결과, 깊은 층에서는 토큰 정체성이 사라져 주의 가중치를 관계 증거로 해석할 수 없으며, 임베딩에서 인간이 이해할 수 있는 속성을 예측하는 모델도 데이터의 희소성·기하학적 구조에 의한 아티팩트에 의해 높은 성능을 보이는 것으로 드러났다. 따라서 기존 해석 방법이 제시하는 “LLM이 의미를 이해한다”는 결론은 신뢰할 수 없으며, 특히 엣지·분산 컴퓨팅 환경에서 모델 압축·디버깅에 활용될 경우 위험할 수 있음을 경고한다.
상세 분석
논문은 두 가지 전통적인 LLM 해석 파이프라인을 그대로 재현한 뒤, 각각의 기본 전제—‘토큰 연속성’과 ‘주의 가중치가 정보 흐름을 반영한다’, ‘임베딩이 인간이 정의한 속성을 내포한다’—를 실험적으로 검증한다.
첫 번째 실험에서는 다양한 Transformer 기반 모델(BERT 등)의 모든 레이어와 헤드에서 주의 행렬을 추출하고, 기존 연구와 동일한 시각화·집계 절차를 적용했다. 그러나 레이어가 깊어질수록 잔차 연결과 MLP 블록의 혼합 효과로 인해 특정 위치의 표현이 원래 입력 토큰과 일치하지 않음이 확인되었다. 이를 ‘토큰 정체성 붕괴’라 명명하고, 깊은 층에서 추출한 고주의 연결이 실제 의미적 관계라기보다 위치 기반 혼합의 부수 현상임을 입증했다. 또한, 주의 가중치를 직접적인 인과 관계로 해석하는 ‘주의 해석 가능성’ 가정도, 무작위 입력에 대해 구조화된 패턴이 여전히 나타나는 현상과 비교했을 때 시각적 착시(visualization fallacy)일 가능성이 높다는 기존 연구와 일치한다.
두 번째 실험은 세 개의 속성 규범 데이터셋(McRae, Buchanan, Binder)을 사용해 0번째 레이어의 타입‑레벨 임베딩을 추출하고, PLSR 및 단일 은닉층 FFNN으로 속성을 예측했다. 모델의 차원(k) 선택을 검증 데이터 기반으로 최적화했음에도 불구하고, ‘상한 실험(upper‑bound)’에서 입력과 목표를 동일하게 매핑했을 때 얻은 성능과 거의 동일한 수준의 결과가 나타났다. 이는 데이터 자체의 희소성·분포가 예측 성능을 제한하는 주요 요인임을 의미한다. 더 나아가, 속성을 무작위로 섞거나 전혀 의미 없는 수치(CDiff)로 대체했을 때도 여전히 높은 Spearman 상관이나 F1 점수를 기록했으며, 이는 모델이 실제 의미를 학습한 것이 아니라 임베딩 간의 기하학적 유사성을 활용한 것임을 보여준다.
결과적으로, 두 해석 방법 모두 ‘높은 성능 = 의미적 이해’라는 단순 등가성을 깨뜨린다. 논문은 이러한 실패가 특히 엣지 AI와 분산 시스템에서 위험하다고 강조한다. 압축·프루닝·지식 증류 과정에서 해석 결과에 의존하면, 잘못된 디버깅 판단이나 비효율적인 모델 경량화가 발생할 수 있다. 따라서 연구자는 향후 LLM 해석에 있어 보다 엄격한 ‘사실 검증(sanity check)’과 ‘대조 실험(control)’을 도입하고, 토큰 정체성 유지 여부와 데이터 구조적 편향을 명시적으로 고려한 새로운 방법론 개발을 촉구한다.
댓글 및 학술 토론
Loading comments...
의견 남기기