소셜베일: 소통 장벽 속 언어 에이전트의 사회적 지능 탐구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 에이전트가 현실적인 소통 장벽(의미 모호성, 문화·사회적 불일치, 감정 간섭) 하에서 어떻게 행동하는지를 평가하기 위해 SocialVeil 이라는 인터랙티브 환경을 제안한다. 720개의 시나리오와 4개의 최신 LLM을 대상으로 실험한 결과, 장벽이 존재할 때 상호 이해도는 평균 45 % 이상 감소하고, 미해결 혼란은 50 % 가까이 상승한다. 인간 평가를 통해 시뮬레이션 장벽의 신뢰성이 입증되었으며, 간단한 복구 지시나 인터랙티브 학습을 적용해도 성능 회복은 제한적이었다.

상세 분석

SocialVeil은 기존 소셜 벤치마크가 가정하는 ‘완전한 의사소통’이라는 전제에서 벗어나, 인간 대화에서 흔히 발생하는 인지적·정서적 방해 요인을 체계적으로 재현한다는 점에서 의의가 크다. 논문은 먼저 광범위한 문헌 리뷰를 통해 ‘의미 모호성(semantic vagueness)’, ‘문화·사회적 불일치(sociocultural mismatch)’, ‘감정 간섭(emotional interference)’이라는 세 가지 주요 장벽을 정의하고, 각각을 이론적 근거(Grice, Brown & Levinson, Sapir‑Whorf 등)와 실생활 예시와 연결시켰다.

구현 단계에서는 장벽을 ‘장벽 에이전트’ 한 명에게만 unilateral하게 적용한다. 이를 위해 스타일 프롬프트 P_b와 파라미터 R_b를 설계해, 대화 톤, 언어적 트릭, 혼란 유발 메커니즘 등을 정량화한다. 예를 들어 의미 모호성은 대명사와 생략을 과다 사용하도록 지시하고, 감정 간섭은 감정 표현을 과장해 정보 전달을 방해한다. 파트너 에이전트는 일반적인 프롬프트만 받으며, 이렇게 함으로써 장벽의 효과를 통제된 방식으로 측정한다.

평가 프로토콜은 기존의 목표 달성, 관계 품질, 지식 전달 등 ‘전통적 지표’와 함께, 장벽 특화 지표인 ‘미해결 혼란(unresolved confusion)’과 ‘상호 이해(mutual understanding)’를 도입한다. 두 지표는 5점 리커트 척도로 인간 평가자가 대화 종료 시점의 모호성 정도와 목표·맥락 정렬 정도를 판단한다. 자동 메트릭과 인간 평가 간 Pearson r ≈ 0.80, ICC ≈ 0.78이라는 높은 상관·일관성을 보고함으로써 평가 체계의 신뢰성을 확보했다.

실험은 720개의 시나리오(각 장벽 180개, 베이스라인 180개)와 GPT‑4o‑mini, GPT‑4o, Claude‑2, Llama‑2‑70B 등 네 모델을 대상으로 진행되었다. 결과는 모든 장벽이 LLM의 사회적 성능을 크게 저하시켰으며, 특히 의미 모호성에서는 상호 이해가 58 % 감소, 감정 간섭에서는 관계 품질이 49 % 감소했다. 복구 지시(Repair Instruction)와 인터랙티브 학습(Interactive Learning)이라는 두 가지 적응 전략을 적용했지만, 장벽이 없는 상황 대비 성능 격차를 크게 메우지는 못했다. 이는 현재 LLM이 인간 수준의 ‘대화 복구 능력’을 갖추지 못했음을 시사한다.

한계점으로는 장벽을 일방향으로만 적용했기 때문에 양측 모두가 동시에 장벽을 겪는 상황을 다루지 못했다는 점, 그리고 감정·문화적 요소를 프롬프트 기반으로 구현했기 때문에 실제 인간의 복합적 정서 변화를 완전히 재현하기는 어려웠다는 점을 언급한다. 향후 연구에서는 다중 에이전트 간 상호 장벽, 장벽 강도 조절, 그리고 실제 인간-LLM 인터랙션을 통한 실증 검증이 필요하다.

소셜베일: 소통 장벽 속 언어 에이전트의 사회적 지능 탐구

초록

상세 분석

댓글 및 학술 토론

의견 남기기