SimpleToM: 일상 속 숨은 마음 읽기와 행동 예측의 격차
초록
SimpleToM은 일상 생활에서 발생하는 정보 비대칭 상황을 활용해 LLM의 명시적 정신 상태 추론(Explicit ToM)과 그 지식을 바탕으로 한 행동 예측·판단(Applied ToM) 능력을 동시에 평가한다. 실험 결과 최신 모델들은 정신 상태를 정확히 추론하지만, 그 정보를 활용한 행동 예측과 판단에서는 크게 성능이 떨어진다.
상세 분석
본 논문은 기존 ToM 평가가 주로 Sally‑Anne 같은 고전적인 사고 실험에 국한되어 있다는 한계를 지적하고, 두 차원의 평가 프레임워크를 제안한다. 첫 번째 차원은 ‘Explicit ToM’으로, 주어진 상황에서 등장인물이 특정 정보를 인지하고 있는지 여부를 묻는 이진 질문이다. 두 번째 차원은 ‘Applied ToM’으로, 인지 여부를 바탕으로 인물의 다음 행동을 예측하고, 실제 행동이 합리적인지 판단하도록 설계된 두 단계의 질문을 포함한다.
데이터 구축 과정은 크게 네 단계로 구성된다. (1) 일상 생활에서 흔히 발생하는 10가지 정보 비대칭 시나리오를 정의하고, 각 시나리오마다 핵심 정보를 포함한 시드 스토리를 만든다. (2) GPT‑4와 Claude‑3 시리즈를 활용해 시드 스토리에서 파생된 다양한 엔티티 집합을 생성하고, 이를 바탕으로 2,400개의 새로운 스토리를 자동 생성한다. (3) 인간 annotator가 각 스토리와 두 가지 행동 옵션(‘인식 행동’·‘비인식 행동’)을 검증·필터링하여 고품질 데이터셋을 확보한다. (4) 최종적으로 1,147개의 스토리와 3,441개의 질문(각 스토리당 3개)으로 구성된 SimpleToM을 완성한다.
평가에서는 GPT‑5, o1‑preview, Claude‑3‑Opus 등 최신 LLM을 포함한 12개 모델을 대상으로 zero‑shot 및 few‑shot 설정을 적용했다. 결과는 명시적 ToM 질문에서는 평균 88 % 이상의 정확도를 기록했으나, 행동 예측 질문에서는 55 % 수준, 판단 질문에서는 48 % 이하로 급격히 하락했다. 특히 시나리오별 성능 편차가 크게 나타났는데, 의료 상황이나 잠금 장치와 같이 복잡한 사회적 규범이 개입되는 경우 모델의 오류율이 더 높았다.
이러한 격차는 두 가지 원인으로 해석된다. 첫째, 현재 LLM은 ‘누가 무엇을 알고 있는가’를 판단하는 데 필요한 상식적 추론은 잘 수행하지만, 그 추론을 행동 선택 메커니즘에 연결하는 과정이 부족하다. 둘째, 행동 예측·판단 단계에서는 상황‑특정 규범(예: 식품 안전, 의료 윤리)과 개인의 목표·제약을 동시에 고려해야 하는데, 모델이 이러한 다중 목표 최적화를 수행할 수 있는 구조적 메커니즘이 결여돼 있다.
논문은 또한 기존 ToM 데이터셋과의 비교를 통해 SimpleToM이 제공하는 다양성(10가지 시나리오, 4가지 정보 비대칭 유형)과 현실성(명시적 지각·정신 동사 없이 암시적 정보 제공)이 평가의 신뢰성을 크게 향상시킨다는 점을 강조한다. 마지막으로, 향후 연구 방향으로는 (1) 행동 선택을 위한 목표‑규범 통합 프레임워크, (2) 멀티‑턴 대화에서의 지속적 ToM 추론, (3) 인간‑모델 협업을 통한 판단 기준 정교화 등을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기