인공지능 이론적 마음읽기: 교란 과제와 연쇄사고가 대형 언어모델에 미치는 영향

본 논문은 고전적인 거짓 믿음 과제와 10가지 교란 변형을 포함한 새로운 ToM 데이터셋을 구축하고, 6개의 오픈소스 대형 언어모델을 일반 프롬프트와 연쇄사고(CoT) 프롬프트 두 방식으로 평가한다. 교란이 가해질 경우 모델들의 ToM 성능이 크게 하락함을 확인했으며, CoT 프롬프트는 대부분의 경우 추론 정확도를 회복시키지만 일부 교란 클래스에서는 오히려 성능을 떨어뜨린다. 또한, 인간이 직접 주석 달은 ‘gold‑CoT’와 모델이 생성한 C…

저자: Christian Nickel, Laura Schrewe, Florian Mai

인공지능 이론적 마음읽기: 교란 과제와 연쇄사고가 대형 언어모델에 미치는 영향
본 논문은 대형 언어모델(LLM)이 인간의 Theory of Mind(ToM) 능력을 실제로 보유하고 있는지를 검증하기 위해, 고전적인 ‘거짓 믿음(false‑belief)’ 과제와 이를 변형한 10가지 교란 클래스를 포함한 새로운 데이터셋을 설계·제공한다. 데이터셋은 7개의 시나리오 단계(Unexpected Content 4단계, Unexpected Transfer 3단계)로 구성되며, 각 기본 과제마다 최대 10개의 교란 변형을 만들어 총 1088개의 질문을 만든다. 교란은 기존 연구에서 제시된 투명 용기, 전치사 교체, 라벨 해석 불가, 라벨 자체 부착, 비주인공 믿음 등 5가지와 자동 변화, 무관한 정보 삽입, 과거 패턴 유추, 신뢰할 수 없는 증언, 감정 기반 결론 도출 등 5가지 새로운 클래스를 포함한다. 이러한 교란은 모델이 상황 인식, 공간·언어 추론, 사회·감정 추론 등 다양한 인지 과정을 얼마나 잘 수행하는지를 정밀하게 평가하도록 설계되었다. 데이터셋의 핵심 특징은 각 문장마다 주인공이 가지고 있는 ‘믿음 상태’를 집합 형태로 인간이 직접 주석 달았다는 점이다. 이는 ‘gold‑CoT’(정답 연쇄 사고)로 활용되며, 모델이 생성한 CoT와 비교해 ‘Faithfulness’를 측정한다. 기존 연구가 ROUGE와 같은 표면적 유사도에 의존했던 것과 달리, 저자들은 추론 단계별 정답 일치율을 기반으로 한 상관관계 지표를 도입해 최종 답변이 실제 중간 추론에 근거했는지를 정량화한다. 이를 통해 CoT가 단순히 설득력 있는 설명을 만들어 내는 것이 아니라, 실제 문제 해결 과정에 기여했는지를 검증한다. 실험에서는 Llama‑2‑70B‑Chat, Llama‑3‑70B‑Instruct, Vicuna‑33B‑v1.3, Yi‑34B‑Chat, Mixtral‑8x7B‑Instruct‑v0.1, DBRX‑Instruct 등 6개의 최신 오픈소스 모델을 사용했다. 두 가지 프롬프트 전략—Vanilla Prompting(V‑P)과 Chain‑of‑Thought Prompting(CoT‑P)—을 적용했으며, one‑shot 시범 프롬프트와 온도 0 설정으로 일관된 JSON 형식 출력을 강제했다. 평가 항목은 (1) 정확도, (2) Average Treatment Effect(ATE)로 교란·프롬프트 전후 정확도 변화를 측정, (3) OT​oM(고전 과제에서 50% 이상 정확도), RT​oM(모든 교란 클래스에서 50% 초과), limited RT​oM(절반 이상 교란 클래스에서 50% 초과) 등 로버스트 ToM 기준을 정의했다. 주요 결과는 다음과 같다. 교란이 가해진 경우 모든 모델의 정확도가 크게 감소했으며, 평균 ATE는 -20%~ -35% 수준이었다. 이는 현재 LLM이 표면적 패턴 매칭에 의존하고 있음을 보여준다. CoT‑P는 대부분의 교란 클래스에서 정확도 회복 효과를 보였으며, 특히 투명 용기·전치사 교체와 같은 공간·시각적 추론이 필요한 교란에서 +10%~+18%의 개선을 기록했다. 그러나 자동 변화·신뢰할 수 없는 증언·감정 기반 결론 교란에서는 오히려 성능이 감소했고, 일부 모델은 CoT‑P 적용 시 정확도가 -5%까지 떨어졌다. 이는 CoT가 복잡하고 모호한 사회·감정 추론 상황에서는 오히려 혼란을 야기할 수 있음을 시사한다. Faithfulness 측정 결과, CoT‑P가 생성한 추론 단계와 gold‑CoT 사이의 일치율은 평균 68%에 머물렀으며, 정확도가 향상된 경우에만 높은 Faithfulness를 보였다. 반대로 정확도가 떨어진 교란에서는 일치율이 45% 이하로 낮아, 모델이 ‘허위’ CoT를 만들어 내는 경우가 존재함을 확인했다. 이러한 결과는 현재 LLM이 진정한 Theory of Mind, 즉 다른 존재의 정신 상태를 모델링하고 그에 따라 행동을 조정하는 능력이 제한적임을 강조한다. 결론적으로, 본 연구는 (1) 교란에 강인한 메타‑추론 메커니즘 개발, (2) CoT와 실제 인과적 추론을 연결하는 학습 프레임워크 설계, (3) 멀티모달·인터랙티브 환경에서 ToM 평가를 확대하는 방향으로 향후 연구가 진행되어야 함을 제안한다. 또한, 데이터셋과 코드, 실험 결과를 공개함으로써 ToM 연구 커뮤니티에 재현 가능하고 확장 가능한 벤치마크를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기