LLM의 지식 충돌 해소: 크기와 방향을 분리한 기하학적 메커니즘

LLM의 지식 충돌 해소: 크기와 방향을 분리한 기하학적 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델이 컨텍스트 내 모순 정보를 어떻게 우선시하는지, 잔차 스트림의 크기 변화(신호 희석)와 방향 변화(회전) 중 어느 메커니즘이 작용하는지를 레이어별로 정량 분석한다. Qwen‑3‑4B, Llama‑3.1‑8B, GLM‑4‑9B 세 모델을 대상으로 반사실적 프롬프트를 주입하고, 잔차 업데이트를 방사형·각도 성분으로 분해하였다. 결과는 두 모델에서 잔차 노름이 거의 변하지 않음에도 불구하고 정확도는 크게 떨어지는 “Orthogonal Interference”(준직교 간섭) 현상이 일어나며, “Manifold Dilution”(신호 희석) 가설은 보편적이지 않음을 보여준다. 즉, 모델은 내부 진리를 억제하기보다 방향을 회전시켜 잘못된 컨텍스트를 우선시한다는 결론에 도달한다.

상세 분석

본 연구는 LLM이 사전 학습된 파라메트릭 지식과 인‑컨텍스트(대화) 정보 사이에서 발생하는 충돌을 어떻게 해결하는지를 기하학적으로 규명하고자 한다. 핵심 가설은 두 가지로, ① 반사실적 컨텍스트가 잔차 스트림의 노름을 확대해 진리 방향에 대한 투영을 희석시키는 “Manifold Dilution” 가설, ② 반사실적 컨텍스트가 진리 방향에 거의 직교하는 벡터를 삽입해 전체 상태를 회전시키는 “Orthogonal Interference” 가설이다. 이를 검증하기 위해 저자는 세 가지 최신 모델(Qwen‑3‑4B, Llama‑3.1‑8B, GLM‑4‑9B)을 선택하고, MMLU·MMLU‑Pro에서 추출한 300개의 질문에 반사실적 프롬프트를 추가해 1,500개의 추론 시나리오를 만든다. 각 레이어에서 RMSNorm 이전의 숨겨진 상태를 추출하고, 기본 상태와 충돌 유도 상태의 차이를 “interference vector”로 정의하였다. 이후 두 가지 지표를 계산한다. 첫째, 잔차 노름 비율 ‖h_conflict‖/‖h_base‖가 1보다 현저히 작으면 신호 희석이 일어난 것으로 본다. 둘째, interference vector와 정답 토큰의 언임베딩 벡터 사이의 코사인 유사도가 0에 가깝다면 준직교 간섭을 의미한다. 실험 결과, Qwen‑3‑4B와 GLM‑4‑9B는 전체 레이어에서 노름 비율이 0.951.02 수준으로 거의 변하지 않았음에도 불구하고, 최종 로그잇이 평균 35점 감소하는 현상이 관찰되었다. 반면, Llama‑3.1‑8B는 약간의 노름 증가가 있었지만, 코사인 유사도는 대부분 -0.1~0.1 사이에 머물렀다. 이는 “Orthogonal Interference”가 대부분의 경우에 지배적인 메커니즘임을 강하게 시사한다. 또한, 레이어 깊이가 깊어질수록 코사인 분포가 0에 수렴하고, 로그잇 감소와의 상관관계가 0.78 이상의 높은 피어슨 상관계수를 보였다. 이러한 결과는 RMSNorm이 노름을 고정시키는 특성 때문에 순수한 크기 감소가 로그잇에 미치는 영향이 제한적이며, 방향성 변형이 모델 출력을 좌우한다는 기존 이론을 실증적으로 뒷받침한다. 저자는 또한 “Manifold Dilution”이 특정 아키텍처(예: 일부 특수 정규화 방식)에서는 부분적으로 나타날 수 있음을 인정하면서도, 일반적인 트랜스포머 기반 LLM에서는 보편적인 현상이 아님을 강조한다. 마지막으로, 이러한 기하학적 회전 메커니즘은 스칼라 기반 신뢰도 추정이 허위 양성(halucination) 탐지에 한계가 있음을 보여주며, 벡터 수준의 모니터링과 방향성 검증이 필요함을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기