LLM 설득능력과 계획적 이론‑마음: 숨은 상태를 파악하라

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 설득 대화 과제를 통해 대형 언어 모델(LLM)의 계획적 이론‑마음(PT‑ToM) 능력을 검증한다. 설득자는 목표 대상의 지식·동기 상태를 ‘공개(리빌)’ 혹은 ‘숨김(히든)’ 조건에서 파악해야 하며, LLM은 공개 조건에서는 뛰어나지만 숨김 조건에서는 다단계 추론·계획에 실패한다. 인간은 두 조건 모두에서 중간 수준의 성과를 보인다. 추가 실험에서 LLM은 인간 설득자를 능가했으며, 이는 설득이 반드시 명시적 ToM을 필요로 하지 않고, 수사적 전략만으로도 효과적일 수 있음을 시사한다.

상세 분석

이 논문은 전통적인 예측‑스펙터리(ToM) 벤치마크가 인간의 실제 사회적 상호작용, 특히 계획적 개입을 반영하지 못한다는 비판에서 출발한다. 저자들은 ‘Planning Theory of Mind(PT‑ToM)’이라는 개념을 도입해, 타인의 정신 상태를 이해하고 이를 기반으로 행동을 설계·조작하는 능력을 정의한다. 이를 실험적으로 검증하기 위해 세 가지 정책 제안과 세 속성(안전·통제, 개발 속도, 공공 신뢰)을 가진 설득 게임을 설계했으며, 설득자는 목표 대상의 속성 선호와 현재 지식 수준을 파악해 선택적으로 정보를 공개한다. 두 실험 조건은 (1) REVEALED: 설득자가 대상의 가치 함수와 지식 상태를 완전히 볼 수 있음, (2) HIDDEN: 설득자가 이를 직접 질문하거나 추론해야 함이다.

실험 1에서 LLM은 REVEALED 조건에서 거의 최적에 가까운 설득 성공률을 보였지만, HIDDEN 조건에서는 확률 이하의 성과를 기록했다. 이는 LLM이 다단계 대화 흐름을 계획하고, 질문‑응답 루프를 통해 목표의 정신 상태를 추론하는 과정에서 한계를 드러낸다. 반면 인간 설득자는 두 조건 모두에서 중간 수준의 성공률을 보이며, 특히 HIDDEN 상황에서 질문을 통해 정보를 획득하고, 그 정보를 바탕으로 전략을 수정하는 능력이 있음을 보여준다.

실험 2와 3에서는 목표 대상을 인간이 직접 역할 수행하거나 실제 믿음 변화를 측정했음에도 LLM이 인간 설득자를 지속적으로 앞섰다. 이는 LLM이 ‘계획적 ToM’보다는 사전 학습된 설득 템플릿, 논리적 근거 제시, 감정적 호소 등 수사학적 전략을 활용해 효과적으로 설득한다는 점을 시사한다. 즉, 설득 성공이 반드시 대상의 정신 상태에 대한 정확한 모델링을 전제로 하지 않으며, LLM은 풍부한 언어 지식과 논증 구조를 통해 인간보다 일관되게 설득력을 발휘한다.

이러한 결과는 두 가지 중요한 함의를 가진다. 첫째, LLM에 대한 ToM 평가 시 단순 정답 예측이 아니라, 대화형·계획적 과제를 포함해야 진정한 PT‑ToM 능력을 가늠할 수 있다. 둘째, LLM이 인간의 믿음과 행동을 변화시킬 잠재력이 크므로, 윤리적·사회적 위험 관리가 시급히 필요하다. 논문은 LLM이 인간 수준의 ToM을 갖추었다기보다, 특정 상황에서 ‘전략적 설득’이라는 별도 능력을 보유하고 있음을 명확히 구분한다.

LLM 설득능력과 계획적 이론‑마음: 숨은 상태를 파악하라

초록

상세 분석

댓글 및 학술 토론

의견 남기기