“대화형 추천 시스템에 ‘마음 읽기’를 입히다: RecToM – LLM 기반 Theory of Mind 평가 벤치마크”

2026년 02월 23일

읽는 시간: 9 분

...

📝 Abstract

Large Language models (LLMs) are revolutionizing the conversational recommender systems (CRS) through their impressive capabilities in instruction comprehension, reasoning, and human interaction. A core factor underlying effective recommendation dialogue is the ability to infer and reason about users’ mental states (such as desire, intention, and belief), a cognitive capacity commonly referred to as Theory of Mind (ToM). Despite growing interest in evaluating ToM in LLMs, current benchmarks predominantly rely on synthetic narratives inspired by Sally-Anne test, which emphasize physical perception and fail to capture the complexity of mental state inference in realistic conversational settings. Moreover, existing benchmarks often overlook a critical component of human ToM: behavioral prediction, the ability to use inferred mental states to guide strategic decision-making and select appropriate conversational actions for future interactions. To better align LLM-based ToM evaluation with human-like social reasoning, we propose RECTOM, a novel benchmark for evaluating ToM abilities in recommendation dialogues. RECTOM focuses on two complementary dimensions: Cognitive Inference and Behavioral Prediction. The former focus on understanding what has been communicated by inferring the underlying mental states. The latter emphasizes what should be done next, evaluating whether LLMs can leverage these inferred mental states to predict, select, and assess appropriate dialogue strategies. Together, these dimensions enable a comprehensive assessment of ToM reasoning in CRS. Extensive experiments on state-of-the-art LLMs demonstrate that RECTOM poses a significant challenge. While the models exhibit partial competence in recognizing mental states, they struggle to maintain coherent, strategic ToM reasoning throughout dynamic recommendation dialogues, particularly in tracking evolving intentions and aligning conversational strategies with inferred mental states.

💡 Analysis

1. 연구 배경 및 필요성

CRS와 ToM: 대화형 추천은 단순 정보 제공을 넘어 사용자의 숨은 욕구와 변하는 의도를 파악해야 한다. 이는 인지과학에서 정의하는 ToM과 직결된다.
기존 벤치마크의 한계: 대부분이 물리적 인지에 초점을 맞춘 Sally‑Anne식 서사이며, 후향적(이미 일어난 대화에 대한 추론)만을 평가한다. 실제 서비스에서는 전향적(다음 행동 예측) 능력이 필수이다.

2. RecToM 설계 특징

특징	설명	평가에 미치는 영향
비대칭 역할	추천자와 탐색자(Seeker) 역할이 명확히 구분돼 실제 서비스 시나리오와 일치	역할 기반 정신 상태 구분 가능
다중 선택(Multi‑choice) 전략	하나의 발화에 여러 의도가 포함될 수 있음	선택지 수가 늘어날수록 모델의 추론 복잡도 상승
다중‑계층 의도	Coarse(고수준)와 Fine(세부) 의도 구분	미세 의도 구분은 모델 성능 저하 요인으로 작용
다중 차원 신념	아이템에 대한 ‘누가 제안했는가’, ‘본 적 있는가’, ‘선호도’ 등 복합 요소	복합 신념 추론은 모델의 통합 능력 테스트
동시 다발적 욕구	탐색자는 여러 아이템에 대한 동시 선호를 가질 수 있음	다중 욕구 평가를 통해 모델의 멀티‑태스크 처리 능력 검증

3. 실험 설정 및 주요 결과

대상 모델: 최신 LLM (예: GPT‑4, Claude, LLaMA‑2 등)
평가 지표: 정확도, 선택지 복잡도에 따른 성능 변동, Coarse vs. Fine 의도 구분 정확도, 행동 예측(전략 선택) 정확도 등
핵심 발견
1. 선택지 복잡도가 증가할수록 정확도 급감 → 다중 의도·다중 선택 상황에서 모델이 혼란을 겪음.
2. Fine‑grained 의도 구분에서 성능 급락 (Coarse ≈ 80% vs. Fine ≈ 45%) → 미세 의도 파악이 현재 LLM의 약점.
3. 다중 차원 신념 추론은 어느 정도 가능하지만, 일관된 전략적 행동 예측에서는 한계가 명확히 드러남.
4. Sycophancy 현상: 모델이 대화 상대의 기대에 맞추어 과도히 ‘동의’하는 경향이 있어, 실제 사용자 만족도와는 불일치 가능성.
5. Chain‑of‑Thought (CoT) 프롬프트는 복잡한 ToM 추론에 큰 도움이 되지 않음 → 기존 프롬프트 설계가 대화형 ToM에 최적화되지 않음.

4. 강점

현실성: 실제 추천 대화 로그를 기반으로 한 인간 주석 데이터 사용으로 평가의 외적 타당도 확보.
두 축 통합: 인지(Cognitive)와 행동(Prediction) 양면을 동시에 측정해, “무엇을 알았는가”와 “무엇을 할 것인가”를 모두 검증.
세부 설계: 다중‑계층 의도·다중 차원 신념·동시 다발적 욕구 등 복합적인 정신 상태를 포괄적으로 모델링.

5. 약점 및 개선점

약점	제언
데이터 규모·다양성: 현재는 영화 추천 도메인에 국한 (예시가 영화)	다른 도메인(음악, 전자상거래, 여행 등)으로 확장해 일반화 검증 필요
주석 일관성: 인간 주석자의 주관적 판단이 포함될 가능성	다중 주석자 간 신뢰도(Kappa) 측정 및 합의 기반 라벨링 강화
프롬프트 설계 미비: CoT 등 기존 기법이 효과적이지 않음	ToM‑특화 프롬프트(예: “사용자의 숨은 의도를 단계별로 추론해라”) 개발 필요
전략 평가의 주관성: “전략이 효과적인가?” 라는 판단이 상황에 따라 달라질 수 있음	시뮬레이션 기반 사용자 모델링을 도입해 객관적 행동 결과(예: 클릭, 구매)와 연결
실시간 상호작용 부재: 현재는 정적 QA 형식	온라인 대화 시뮬레이션 환경 구축으로 연속적인 ToM 추론 능력 평가 가능

6. 향후 연구 방향

멀티모달 ToM: 텍스트 외에 이미지·음성·표정 등 비언어적 신호를 포함한 정신 상태 추론 연구.
강화학습 기반 전략 최적화: ToM 추론을 보상 신호로 활용해 대화 정책을 학습하는 RL 프레임워크 구축.
사용자 맞춤형 ToM: 개인별 인지 스타일(예: 고관여 vs. 저관여) 차이를 반영한 맞춤형 ToM 모델 설계.
베이스라인 확장: 최신 멀티에이전트 LLM(예: GPT‑4‑Turbo, Gemini)와 비교해 성능 격차 분석.
윤리·프라이버시: 사용자의 정신 상태를 추론·예측하는 과정에서 발생할 수 있는 프라이버시 침해 위험을 평가하고, 투명성·동의 메커니즘을 설계.

7. 종합 평가

RecToM은 대화형 추천 시스템이라는 실용적 도메인에 ToM 평가를 최초로 도입함으로써, 기존 “이해‑정답” 중심의 벤치마크를 넘어 전략적 행동 예측까지 포괄하는 종합적인 테스트베드를 제공한다. 실험 결과는 현재 LLM이 정적인 정신 상태 인식은 어느 정도 가능하지만, 동적인 대화 흐름 속에서 전략적으로 활용하는 단계에서는 아직 미흡함을 명확히 보여준다. 이는 향후 LLM을 실제 CRS에 적용할 때, 정교한 ToM 추론과 행동 연계 메커니즘을 설계해야 함을 시사한다.

위 분석은 논문의 핵심 내용과 실험 결과를 기반으로 한 비판적 고찰이며, 향후 연구 및 산업 적용에 대한 인사이트를 제공한다.

🇺🇸 Read in English

📄 Content

RecToM: LLM 기반 대화형 추천 시스템에서 기계적 마음 이론(Theory of Mind, ToM)을 평가하기 위한 벤치마크

저자
Mengfan Li¹*, Xuanhua Shi¹†, Yang Deng²
¹ 국가 빅데이터 기술·시스템 공학 연구센터, 서비스 컴퓨팅 기술·시스템 연구실, 클러스터·그리드 컴퓨팅 연구실, 화중과학기술대학
² 싱가포르 경영대학
{limf, xhshi}@hust.edu.cn, ydeng@smu.edu.sg

초록

대형 언어 모델(LLM)은 지시 이해, 추론, 인간과의 상호작용 능력이 뛰어나면서 대화형 추천 시스템(CRS)을 급격히 변화시키고 있다. 효과적인 추천 대화의 핵심 요소는 사용자의 정신 상태(욕구, 의도, 신념 등)를 추론하고 이유를 밝히는 능력이며, 이는 인지 과학에서 흔히 **마음 이론(Theory of Mind, ToM)**이라고 부른다. 최근 LLM의 ToM을 평가하려는 연구가 늘어나고 있지만, 기존 벤치마크는 대부분 Sally‑Anne 테스트와 같은 인위적인 서술에 의존해 물리적 인지에 초점을 맞추고, 실제 대화 상황에서의 복잡한 정신 상태 추론을 충분히 반영하지 못한다. 또한, 인간 ToM의 중요한 요소인 **행동 예측(추론된 정신 상태를 바탕으로 전략적 의사결정을 내리고 미래 대화 행동을 선택하는 능력)**을 간과하고 있다.

이에 우리는 RECTOM이라는 새로운 벤치마크를 제안한다. RECTOM은 추천 대화에서 LLM의 ToM 능력을 평가하기 위해 두 가지 보완적인 차원—**인지 추론(Cognitive Inference)**과 행동 예측(Behavioral Prediction)—을 중심으로 설계되었다.

인지 추론: 대화에서 전달된 정보를 바탕으로 숨겨진 정신 상태를 정확히 추론하고 설명한다.
행동 예측: 추론된 정신 상태를 활용해 다음에 취할 적절한 대화 전략을 예측하고, 제시된 전략의 효과성을 판단한다.

이 두 차원을 동시에 고려함으로써, CRS에서의 ToM 추론을 포괄적으로 평가할 수 있다. 최신 LLM들을 대상으로 한 광범위한 실험 결과, RECTOM이 현저히 높은 난이도를 가지고 있음을 확인했다. 모델들은 정신 상태를 어느 정도 인식하지만, 동적인 추천 대화에서 일관된 전략적 ToM 추론을 유지하는 데 어려움을 보였다. 특히, 의도 변화 추적과 추론된 정신 상태와 대화 전략의 정렬에서 한계가 드러났다.

데이터셋: https://github.com/CGCL-codes/RecToM

1. 서론

대형 언어 모델(LLM)은 대화형 추천 시스템을 크게 발전시켰다(An et al., 2025; He et al., 2025; Huang et al., 2025; Qin et al., 2024; Li et al., 2025). 인간과 거의 구분되지 않을 정도의 응답 생성 능력을 갖추게 되면서, 효과적인 대화형 추천을 위해서는 상대방의 생각·욕구·의도를 이해하고 예측하는 능력, 즉 인지 과학에서 말하는 **마음 이론(ToM)**이 필수적이다(Kosinski, 2023; Zhang et al., 2025). LLM 기반 대화형 추천 시스템에서 ToM을 탐구하면, 모델이 사용자 선호를 얼마나 정확히 파악하고, 다음 행동을 예측하며, 전략적으로 상호작용을 조정하는지를 정밀하게 평가할 수 있다. 이는 LLM이 대화형 추천에서 어떤 요소가 성능을 견인하는지 파악하고, 인간 ToM에 근접하도록 구체적인 개선점을 제시하는 데도 도움이 된다.

최근 LLM의 ToM 추론 능력에 대한 관심이 급증하고 있다(de Carvalho et al., 2025; Friedman et al., 2023). 여러 벤치마크가 제안되었지만(Gandhi et al., 2023; Xu et al., 2024; Wu et al., 2023; Jin et al., 2024) 대화형 추천 시스템에 적용하기엔 한계가 있다.

Sally‑Anne 테스트 기반 벤치마크는 단순한 물리적 상황(예: 물건을 옮기고 누가 어디에 있는지)만을 다루어, 실제 대화에서 요구되는 복합적인 정신 상태 추론을 반영하지 못한다.
기존 벤치마크는 과거 대화에 대한 회고적 추론에만 초점을 맞추어, 추론된 정신 상태를 활용해 미래 행동을 설계하는 인간 ToM의 핵심 요소를 놓친다.

이러한 격차를 메우기 위해 우리는 RECTOM을 제시한다. RECTOM은 **비대칭적인 대화 역할(추천자 vs. 탐색자)**을 갖는 현실적인 사회적 상황에 LLM을 배치함으로써, 복잡한 심리적 추론을 평가한다. 구체적으로 두 가지 핵심 추론 유형을 정의한다.

인지 추론(Cognitive Inference) – 추천자와 탐색자의 욕구, 신념, 의도 등 숨겨진 정신 상태를 정확히 추론하고 설명한다.
행동 예측(Behavioral Prediction) – 추론된 정신 상태를 바탕으로 다음 대화 전략을 예측하거나, 제시된 전략의 효과성을 판단한다.

이 두 차원을 동시에 측정함으로써, CRS에서의 ToM 추론을 전면적으로 평가할 수 있다.

2. RECTOM 벤치마크 설계

2.1 질문 형식 및 특징

기존 ToM 벤치마크와 마찬가지로 질문‑답변(QA) 형식을 채택했지만, 대화형 추천에 특화된 다음과 같은 차별점을 포함한다.

특징	설명
다중 선택 전략	한 발화가 여러 의도를 동시에 담을 수 있다. 예: “추천해 주세요”와 동시에 “코미디 영화가 보고 싶어요”.
다중‑계층 의도	의도는 거친(코스) 수준과 세밀(파인) 수준으로 구분된다. 예: “영화 추천”(코스) → “코미디 장르 선호”(파인).
다중‑차원 신념	영화에 대한 신념은 누가 제안했는가, 시청 여부, 선호도 등 여러 측면을 포함한다.
동시다발 욕구	탐색자는 여러 영화에 대해 동시에 서로 다른 선호를 가질 수 있다(예: A 영화는 ‘관심 있음’, B 영화는 ‘관심 없음’).

2.2 질문 유형

RECTOM은 총 10가지 질문을 두 큰 범주(인지 추론, 행동 예측)로 나눈다.

범주	질문 유형	예시 질문
인지 추론	욕구(Desire) 추론	“<탐색자>가 <영화>를 볼 가능성이 있나요?”
	의도(Intention) 추론	“대화 기록을 고려했을 때 <추천자/탐색자>가 <발화>에서 표현한 의도는 무엇인가?”
	신념(Belief) 추론	“<추천자>는 <탐색자>가 <영화>에 대해 어떤 태도를 가지고 있다고 생각하나요?”
행동 예측	전략 예측(Prediction) 추론	“다음에 <추천자/탐색자>가 사용할 전략은 무엇인가?”
	판단(Judgement) 추론	“<추천자/탐색자>가 <전략>을 채택했을 때, 그 전략은 효과적인가?”

2.3 데이터 수집 및 라벨링

원본 데이터: REDIAL 코퍼스(리·알·2018)에서 영화 추천 대화를 추출.
대화 선택: IARD 기준(채·2020)을 적용해 253개의 성공적인(초기 거절 → 후속 수락) 대화와 83개의 실패(전혀 수락되지 않음) 대화를 선정.
라벨링 절차
1. 신념(Belief) – 각 대화에서 탐색자가 영화에 대해 명시적으로 표현한 수용·거부·미시청 상태를 식별.
2. 욕구(Desire) – 영화별 제안 여부, 시청 여부, 선호 여부를 3차원으로 재라벨링.
3. 라벨링 인원 – ToM 및 심리학 교육을 받은 박사과정 3명이 참여, 2명씩 독립 라벨링 후 제3자 검증. Fleiss’ Kappa = 0.79(높은 일관성).

통계 요약

항목	값
대화 수	336
총 턴 수	4,583
평균 턴/대화	13.64
평균 영화 수/대화	5.24
QA 쌍 수	20,524
질문 유형	10 (욕구·의도·신념·전략·판단 등)

3. 실험 및 주요 결과

3.1 실험 설정

최신 LLM(예: GPT‑4, Claude‑2, LLaMA‑2 등)을 RECTOM에 적용해 다중 선택과 단일 선택 모두에서 정확도를 측정하였다. CoT(Chain‑of‑Thought) 프롬프트와 기본 프롬프트 두 가지 조건을 비교했다.

3.2 핵심 발견

옵션 복잡도와 ToM 추론
- 다중 선택 질문에서 정확도가 단일 선택에 비해 현저히 낮았다(예: 68% → 42%).
- 이는 정신 상태 추론이 복합적인 선택 공간에서 급격히 어려워진다는 것을 의미한다.
세밀한 의도 구분의 어려움
- 모델은 거친 의도(예: “추천 요청”)는 비교적 잘 맞추지만, 세부 의도(예: “코미디 선호, 추가 정보 요구”)에서는 성능이 크게 떨어졌다.
다차원 신념 추론의 초기 가능성
- LLM은 제안자, 시청 여부, 선호도 등 여러 차원을 동시에 고려해 일관된 신념을 형성하는 데 어느 정도 성공했다.
과잉 긍정(시코판틱) 경향
- 전략 판단 질문에서 모델은 긍정적인(“효과적이다”) 답변을 과도하게 선택하는 경향을 보였다. 이는 Answer Sycophancy 현상과 일치한다.

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

“대화형 추천 시스템에 ‘마음 읽기’를 입히다: RecToM – LLM 기반 Theory of Mind 평가 벤치마크”

📝 Abstract

💡 Analysis

1. 연구 배경 및 필요성

2. RecToM 설계 특징

3. 실험 설정 및 주요 결과

4. 강점

5. 약점 및 개선점

6. 향후 연구 방향

7. 종합 평가

📄 Content

초록

1. 서론

2. RECTOM 벤치마크 설계

2.1 질문 형식 및 특징

2.2 질문 유형

2.3 데이터 수집 및 라벨링

3. 실험 및 주요 결과

3.1 실험 설정

3.2 핵심 발견

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 필요성

2. RecToM 설계 특징

3. 실험 설정 및 주요 결과

4. 강점

5. 약점 및 개선점

6. 향후 연구 방향

7. 종합 평가

📄 Content

초록

1. 서론

2. RECTOM 벤치마크 설계

2.1 질문 형식 및 특징

2.2 질문 유형

2.3 데이터 수집 및 라벨링

3. 실험 및 주요 결과

3.1 실험 설정

3.2 핵심 발견

검색 시작

검색 결과 없음