맥락 밖 추론이 만든 일반화와 환각
초록
본 논문은 대형 언어 모델(LLM)이 새로운 사실을 미세조정할 때 보이는 일반화와 환각 현상이 동일한 메커니즘, 즉 ‘맥락 밖 추론(OCR)’에 의해 발생한다는 가설을 제시한다. 실험을 통해 OCR이 인과관계가 있는 경우에는 일반화를, 인과관계가 없는 경우에는 환각을 일으킨다는 것을 확인하고, 이를 단일 헤드, 단일 레이어 어텐션 트랜스포머의 합성 사실 회상 과제로 형식화한다. 이 과제에서 출력·값 행렬을 별도로 파라미터화한 모델은 OCR을 학습하지만, 결합된 행렬을 사용하는 모델은 실패한다. 이 차이는 그래디언트 하강의 암묵적 편향이 결합 행렬의 핵노름을 최소화하는 방향으로 작용하기 때문이며, 이는 적은 샘플로도 사실‑함축 관계를 빠르게 학습하게 만든다. 연구는 OCR 현상의 이론적 근거를 제공하고, 지식 주입 시 발생하는 부정적 행동을 완화하는 새로운 관점을 제시한다.
상세 분석
이 논문은 LLM이 새로운 사실을 미세조정(fine‑tuning)할 때 나타나는 두 가지 상반된 현상—새로운 지식으로부터의 일반화와 사실이 아닌 정보를 생성하는 환각—을 하나의 근본 메커니즘인 ‘맥락 밖 추론(OCR)’으로 통합한다. OCR은 모델이 훈련 데이터에 명시적으로 제시되지 않은 관계를, 주어‑관계‑객체 삼중항 형태의 지식 그래프에서 암묵적으로 연결함으로써 추론하는 능력을 의미한다. 인과관계가 존재하는 경우(예: “파리는 프랑스에 있다” → “파리 사람은 프랑스어를 말한다”) 모델은 올바른 일반화를 수행한다. 반면 인과관계가 전혀 없는 경우(예: “파리는 프랑스에 있다” → “파리 사람은 자바로 코딩한다”) 모델은 동일한 연결 메커니즘을 적용해 잘못된 함축을 만들어내며, 이것이 환각이다.
실험에서는 Gemma‑2‑9B, OLMo‑7B, Qwen‑2‑7B, Mistral‑7B‑v0.3, Llama‑3‑8B 등 다섯 가지 최신 LLM을 대상으로 합성 데이터셋을 구축하였다. 데이터는 5개의 주체 집합(S)와 두 개의 관계 토큰(r₁, r₂) 그리고 각각 사실 집합(A₁)과 함축 집합(A₂)으로 구성된다. ‘City‑Language’와 같은 인과관계가 있는 연관성, ‘City‑Language(CF)’, ‘Country‑Code’, ‘Profession‑Color’, ‘Sport‑Music’ 등 인과관계가 없는 네 가지 가짜 연관성을 각각 테스트했다. 훈련은 각 주체에 대해 사실만 제공하고, 일부 주체에 대해서만 함축을 제공하는 20%/80% 비율로 이루어졌다. 평가 지표는 정답 함축이 전체 후보(A₁∪A₂) 중 어느 순위에 위치하는지를 나타내는 mean‑rank이며, 낮을수록 모델의 추론 능력이 우수함을 의미한다. 결과는 인과관계가 있는 ‘City‑Language’에서 거의 완벽한 일반화(Mean‑Rank≈0)를 보인 반면, 인과관계가 없는 경우에는 평균 순위가 크게 상승해 환각이 빈번함을 확인했다. 특히, 몇 개의 훈련 예시만으로도 모델이 이러한 연관성을 빠르게 학습한다는 점은 OCR이 매우 샘플 효율적인 메커니즘임을 시사한다.
이론적 분석에서는 OCR을 ‘합성 사실 회상’ 작업으로 정형화한다. 입력은 (s, r₁) 혹은 (s, r₂) 형태의 토큰 시퀀스이며, 모델은 해당 주체‑관계 쌍에 대응하는 정답 토큰을 출력한다. 저자는 단일 레이어, 단일 헤드 어텐션 트랜스포머를 두 가지 파라미터화 방식으로 비교한다. 첫 번째는 출력 행렬 W_O와 값 행렬 W_V를 별도로 학습하는 ‘분해형(factorized)’ 모델이며, 두 번째는 이들을 곱해 하나의 결합 행렬 W_OV = W_O W_Vᵀ 로 표현하는 ‘비분해형(non‑factorized)’ 모델이다. 실험적으로 분해형 모델은 훈련 데이터에서 관측된 (s, r₁, b_i)와 (s, r₂, c_i) 쌍을 이용해 새로운 주체 s′에 대해 (s′, r₂, c_i)를 정확히 예측할 수 있었지만, 비분해형 모델은 동일한 설정에서 전혀 학습하지 못했다.
핵심 원인은 그래디언트 하강의 암묵적 편향이다. 저자는 손실 함수가 로그‑소프트맥스 형태일 때, 경사 하강이 결국 결합 행렬 W_OV의 핵노름(핵트레이스 노름)을 최소화하는 방향으로 수렴한다는 기존 이론을 확장한다. 핵노름 최소화는 행렬의 저차원 구조를 선호하게 만들며, 이는 ‘공통된 사실‑함축 쌍’이 여러 주체에 걸쳐 반복될 때 해당 저차원 서브스페이스가 빠르게 형성되는 메커니즘과 일치한다. 따라서 훈련 샘플이 적어도 (b_i, c_i) 쌍이 충분히 반복되면 모델은 W_O와 W_V를 별도로 최적화해 각각의 역할을 분리하고, 이를 통해 새로운 주체에 대한 함축을 일반화한다. 반면 비분해형 모델은 핵노름 최소화가 전체 행렬을 한 번에 압축하려 하므로, 개별적인 사실‑함축 연결을 구분하지 못하고 결국 OCR을 수행하지 못한다.
이론적 결과는 두 가지 중요한 함의를 가진다. 첫째, OCR이 발생하는 조건은 훈련 데이터 내에서 ‘사실‑함축’ 쌍이 차지하는 비율, 즉 관측된 (b_i, c_i) 비율이 충분히 높을 때이다. 이는 실제 LLM이 사전 학습 단계에서 이미 많은 인과관계(예: 지리‑언어)를 내재하고 있기 때문에, 미세조정 시 작은 추가 데이터만으로도 해당 관계를 재활용해 일반화를 이끌어내는 메커니즘을 설명한다. 둘째, 동일한 메커니즘이 인과관계가 없는 연관성에도 적용되므로, 모델은 사전 지식과 무관한 ‘가짜’ 연결도 빠르게 학습한다. 이는 지식 주입 후 발생하는 환각 현상의 근본 원인으로, 모델이 ‘연결성’ 자체를 과도하게 일반화하기 때문임을 보여준다.
마지막으로, 저자는 OCR을 억제하거나 조절하기 위한 잠재적 방법을 제시한다. 예를 들어, 출력·값 행렬을 별도로 학습하도록 강제하거나, 핵노름을 직접 정규화하는 방법이 OCR을 제한하면서도 인과관계가 있는 경우에는 일반화를 유지하도록 설계될 수 있다. 또한, 미세조정 데이터에 인과관계 여부를 명시적으로 표시하는 메타 정보를 추가함으로써 모델이 ‘연관성의 신뢰도’를 판단하도록 유도할 수 있다. 이러한 방향은 향후 LLM의 지식 주입과 안전성 연구에 중요한 토대를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기