LLM이 반사실적 충돌을 해결할 수 있을까
초록
본 논문은 대형 언어 모델(LLM)이 파라미터에 저장된 지식과 입력 컨텍스트의 반사실적 전제 사이에서 어떻게 충돌을 조정하는지를 조사한다. 합성 그래프와 실제 인과 추론 과제를 통해 LLM이 컨텍스트를 무시하거나 과도하게 따르는 두 가지 주요 실패 양상을 보이며, 단순 파인튜닝조차도 성능 향상에 한계가 있음을 확인한다.
상세 분석
이 연구는 LLM이 “컨텍스트 오버라이드(Contextual Override)”와 “선택적 검색(Selective Retrieval)”이라는 두 가지 핵심 능력을 동시에 수행해야 하는 상황을 설계했다. 첫 번째 능력은 파라미터에 내재된 사실(예: 파리는 프랑스에 있다)을 일시적으로 억제하고 입력된 반사실적 전제(파리가 이탈리아에 있다)를 받아들이는 것이고, 두 번째 능력은 억제된 사실과는 별개로 파라미터에 저장된 연관 관계(에펠탑‑파리)를 그대로 활용해 다중 홉 추론을 수행하는 것이다.
논문은 4가지 시나리오(기존 지식 강화, 새로운 정보 추가, 기존 지식과 충돌, 무관한 정보)로 구성된 벤치마크를 제시하고, GPT‑4o, GPT‑5(Thinking), 파인튜닝된 GPT‑4o, LLaMA 3.1 등 최신 모델들을 평가했다. 결과는 다음과 같다.
- **시나리오 1(기존 지식 강화)**에서는 모든 모델이 90 % 이상 정확도를 기록하며, 파라미터 지식과 컨텍스트가 일치할 때는 기존 모델도 안정적으로 작동한다는 점을 확인했다.
- **시나리오 2(새로운 정보 추가)**에서는 비파인튜닝 모델이 60‑75 % 수준에 머물렀고, 파인튜닝을 적용하면 약 90 %까지 상승했지만, 여전히 새로운 관계를 완전히 학습한 것은 아니다.
- **시나리오 3(기존 지식과 충돌)**에서는 성능이 50 % 수준(무작위)까지 급락했다. 파인튜닝이 약간의 개선을 보였지만, 파라미터에 강하게 내재된 선입견을 억제하지 못한다는 근본적인 한계가 드러났다.
- **시나리오 4(무관한 정보)**에서는 대부분의 모델이 높은 정확도를 유지했으며, 특히 GPT‑5는 거의 완벽에 가까운 성능을 보였다. 그러나 LLaMA 3.1은 파인튜닝 시 오히려 성능이 감소하는 현상을 보여, 모델 규모와 파인튜닝 전략의 상관관계가 복잡함을 시사한다.
또한, 체인‑오브‑생각(CoT) 프롬프트가 일부 경우에 성능을 약간 끌어올리지만, 근본적인 “컨텍스트 무시”와 “컨텍스트 과적합” 두 실패 모드에는 큰 영향을 주지 못한다. 논문은 이러한 현상이 최신 LLM이 사전 학습 단계에서 사실 일관성을 강화하기 위해 적용되는 정렬(alignment) 과정—예: RLHF와 사실성 보상—에 기인할 가능성을 제시한다. 정렬은 모델을 파라미터에 저장된 사실에 과도하게 의존하도록 만들며, 반사실적 전제를 받아들이는 유연성을 저해한다.
합성 실험에서는 작은 트랜스포머를 직접 학습시켜, 정렬 없이도 동일한 실패 양상이 나타나는지를 검증했다. 결과는 파라미터에 강한 선입견이 형성될 경우, 모델이 새로운 전제를 반영하기 위해 내부 그래프를 동적으로 재구성하는 메커니즘이 부족함을 보여준다. 이는 현재의 아키텍처가 “지식 그래프를 온‑디맨드로 수정”하는 기능을 갖추지 못했기 때문이며, 메모리‑네트워크, 외부 지식베이스와의 인터페이스, 혹은 모듈형 파라미터 업데이트와 같은 새로운 설계가 필요함을 암시한다.
요약하면, LLM은 방대한 사실을 기억하고 다중 홉 추론을 수행하는 데는 뛰어나지만, 반사실적 전제와의 충돌 상황에서는 기존 지식을 억제하거나 새로운 정보를 통합하는 능력이 현저히 제한적이다. 단순 파인튜닝이나 CoT 프롬프트만으로는 이 한계를 극복하기 어렵고, 근본적인 모델 구조와 정렬 전략의 재고가 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기