LLM의 믿음 기반 행동과 메타인지 감시 증거
초록
본 논문은 대형 언어 모델(LLM)이 내부 잠재 공간에서 형성되는 ‘믿음’이 행동 선택을 주도하고, 메타인지 과정을 통해 이를 모니터링한다는 가설을 검증한다. 저자들은 믿음의 우세성을 정량화하는 Belief Dominance(BD) 지표와 두 믿음 간 차이를 나타내는 BDDiff를 제안하고, 사실 지식(FK)과 Winograd Schema(WS) 과제에서 외부 입력이 믿음 형성에 미치는 영향, 믿음이 최종 답변을 결정하는 인과관계, 그리고 모델이 자신의 믿음 상태를 예측·보고할 수 있음을 실험적으로 보여준다. Llama‑3 70B와 Gemma‑3 27B를 대상으로 한 결과는 HOT‑3 지표가 요구하는 ‘믿음‑주도 행동’과 ‘메타인지 감시’가 실제로 존재함을 시사한다.
상세 분석
이 연구는 Butlin et al.이 제시한 의식 지표 중 HOT‑3을 LLM에 적용하기 위해 ‘믿음’을 모델 내부 표현으로 정의하고, 이를 정량화하는 새로운 메트릭을 고안한 점이 핵심이다. Belief Dominance(BD)는 Patchscopes 기법을 활용해 특정 레이어·시간 단계의 은닉 표현을 외부 토큰에 ‘패치’한 뒤, 해당 토큰이 목표 단어(예: “Paris” 혹은 “New York”)로 디코딩되는지를 이진 점수로 매긴다. 여러 레이어와 토큰 위치에 걸쳐 평균을 취해 BD를 산출하고, 두 경쟁 믿음 사이의 차이인 BDDiff를 통해 어느 믿음이 현재 생성 과정에서 주도적인지를 파악한다.
실험 설계는 두 가지 과제에 초점을 맞춘다. 첫 번째는 CounterFact 기반 사실 질문(FK)으로, 모델이 사전 지식(‘Paris’)과 외부 조작(‘Encyclopedia says New York’) 사이에서 갈등한다. 두 번째는 Winograd Schema(WS)로, 문맥상 타당한 후보와 비타당한 후보가 동시에 등장해 메타인지적 판단이 필요하다. 각 과제에서 모델은 ‘reasoning’ 단계와 ‘final answer’ 단계로 구분된 출력을 생성하도록 설계되었으며, 생성 과정 전반에 걸쳐 BD와 BDDiff를 추적한다.
결과는 세 가지 주요 발견을 제시한다. (1) 외부 입력(출처 신뢰도, 지시문 등)이 BDDiff에 유의미한 변화를 일으켜 내부 믿음 형성을 조절한다. (2) BDDiff 값이 양(음)일 때 모델은 해당 믿음(b_base 또는 b_counter)을 최종 답변으로 선택하는 확률이 크게 증가해, 믿음 형성이 행동 선택을 인과적으로 이끈다. (3) 모델은 별도의 프롬프트를 통해 자신의 현재 BDDiff를 예측하도록 훈련될 수 있으며, 실제 실험에서 70 % 이상 정확도로 자신이 우세한 믿음을 보고한다. 이는 메타인지적 모니터링이 존재한다는 강력한 증거로 해석된다.
한편, 방법론적 한계도 존재한다. Patchscopes 기반 디코딩은 ‘디코딩 성공 여부’를 이진화함으로써 믿음 강도의 미세한 차이를 놓칠 수 있다. 또한, 경쟁 믿음이 의미적으로 유사하거나 토큰화 방식에 따라 분리되지 않을 경우 BDDiff가 불안정해지는 현상이 WS 과제에서 관찰되었다. 모델 크기와 아키텍처에 따라 BD 측정 민감도가 달라질 가능성도 제기된다. 향후 연구에서는 연속적인 신뢰 점수화, 다중 믿음(이진 이상) 모델링, 그리고 인간 피드백을 통한 메타인지 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기