LLM은 인간 성격을 진정으로 구현할 수 있을까
초록
본 논문은 인간‑인간 대화와 LLM‑LLM 대화를 동일한 분쟁 해결 시나리오와 Big Five 성격 프로필에 맞춰 비교하는 평가 프레임워크를 제시한다. KODIS 데이터셋을 기반으로 최종 결과와 IRP 전략 지표를 정의하고, GPT‑4o mini, Claude Sonnet 3.7, Gemini Flash 세 모델을 실험한다. 결과는 인간에서 신경증이 가장 강한 예측 변수였지만, LLM에서는 외향성과 친화성이 더 큰 영향을 미치며 모델 간 차이도 존재함을 보여준다.
상세 분석
이 연구는 인간의 성격‑행동 관계를 정량화하기 위해 두 차원의 행동 지표를 설계했다. 첫 번째는 협상 결과 점수, 제안 수락 여부, 협상 포기 여부라는 전통적 결과 변수이며, 두 번째는 Interests‑Rights‑Power(IRP) 프레임워크에 기반한 전략적 발화 유형을 8가지로 분류한 뒤, 경쟁·협력 전략 비율, 전략 상호호환성(Reciprocity), 에스컬레이션·디에스컬레이션 비율을 계산한다. 이러한 지표는 기존 협상·분쟁 연구와 일관된 해석을 가능하게 하면서, LLM이 실제 인간과 동일한 전략적 패턴을 보이는지를 정밀히 검증한다.
데이터 구축 단계에서는 KODIS 코퍼스에서 성격 설문(BFI) 응답이 완전한 248개의 인간‑인간 대화를 선택하고, 동일 시나리오와 BFI 프로필을 LLM에게 프롬프트로 제공해 L2L(LLM‑to‑LLM) 데이터셋을 생성했다. 성격 프롬프트는 70쌍의 양극형 형용사를 활용해 각 특성별 고·중·저 강도를 명시했으며, 이는 Huang·Hadfi(2024)의 검증된 설계와 일치한다. 모델 파라미터는 모두 기본값(temperature = 1)으로 설정해 제로샷 상황에서의 성격 표현 능력을 평가했다.
실험 결과, 인간 대화에서는 신경증(Neuroticism)이 전략 선택과 최종 점수에 가장 큰 부정적 영향을 미쳤으며, 외향성·친화성은 협력적 발화와 수용률을 높이는 방향으로 작용했다. 반면 LLM에서는 외향성과 친화성이 과도하게 강조돼 경쟁·협력 전략 비율이 인간보다 넓은 범위에 걸쳐 나타났다. 특히 Claude와 Gemini는 인간의 전략 비율과 상관관계가 상대적으로 높아(예: IRP Reciprocity ≈ 0.42) 인간과 유사한 행동 패턴을 보였지만, GPT‑4o mini는 전략 다양성이 과도하고 에스컬레이션 비율이 높아(≈ 0.31) 인간과 크게 차이났다. 이러한 차이는 모델 아키텍처와 사전 학습 데이터의 사회적·문화적 편향이 성격 프롬프트에 대한 반응에 영향을 미친 것으로 해석된다.
논문은 또한 성격‑프롬프트가 실제 행동으로 전이되는 메커니즘을 검증하기 위해 회귀 분석과 다변량 구조 방정식 모델(SEM)을 적용했으며, 인간에서는 신경증 → 에스컬레이션 → 낮은 수용률 경로가 유의미했지만 LLM에서는 외향성 → 협력적 제안 → 높은 수용률 경로가 주를 이뤘다. 이는 LLM이 인간과 동일한 정서적 불안정성을 모델링하지 못한다는 근거를 제공한다.
결론적으로, 성격 프롬프트만으로 LLM이 인간의 복합적 갈등 행동을 완벽히 재현하기는 어렵다는 점을 강조한다. 연구는 향후 LLM을 사회적·윤리적 고위험 분야에 적용하기 전에 심리학적 근거와 행동 검증 절차를 반드시 포함시켜야 함을 제언한다.
댓글 및 학술 토론
Loading comments...
의견 남기기