전략적 행위자로서의 대형 언어 모델 행동 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 네 개의 실제 위기 시뮬레이션에 6개의 최신 LLM을 투입해 인간 참가자와의 행동 정렬, 위험 수준(심각도) 보정, 그리고 국제관계 이론에 기반한 논증 프레이밍을 비교한다. 초기 라운드에서는 인간과 어느 정도 일치하지만 라운드가 진행될수록 차이가 커지고, 모델들의 설명은 안정·협력·위험 완화를 강조하는 규범적·협력적 프레임에 치우쳐 있다.

상세 분석

이 논문은 전략적 의사결정 환경에서 LLM을 에이전트로 활용할 가능성을 실증적으로 검증한다는 점에서 의미가 크다. 먼저 네 개의 시나리오(북극, 미중‑대만, 중동, 미국 산불) 각각에 대해 인간 MBA 학생들이 2라운드에 걸쳐 경제·안보·정치 행동을 선택하고 그 이유를 서술하도록 설계되었다. 동일한 사전 자료와 행동 메뉴를 LLM에게 제공하고, 각 라운드마다 행동 선택과 정당화 텍스트를 생성하도록 프롬프트를 구성하였다.

모델 선정은 Claude Sonnet 4.6, ChatGPT 5.2, Gemini 3, Grok 4.1, Mistral 3, Qwen 3.5‑Plus 등 최신 챗형 모델 6종이며, 모두 ‘표준 설정’으로 실행하였다. 정렬 평가는 미시‑F1(정확히 동일한 행동 선택)과 거시‑F1(카테고리별 평균)으로 구분했으며, 라운드 1에서는 Gemini와 Claude가 0.54, 0.53의 미시‑F1로 가장 높은 인간‑모델 일치를 보였다. 라운드 2로 갈수록 모든 모델의 정렬이 0.16‑0.33 수준으로 급격히 감소했는데, 이는 초기에는 인간이 사용하는 기본적인 전략 히어스틱을 공유하지만, 시나리오가 복잡해지면서 모델마다 업데이트 메커니즘과 상황 해석이 달라지기 때문이다.

위험 보정 측면에서는 행동 심각도를 6단계(낮음‑극심)로 코딩하고, 라운드 2에서 전반적으로 심각도가 상승하는 경향을 확인했다. 이는 인간과 모델 모두 상황 악화에 따라 ‘에스컬레이션’ 전략을 선택한다는 점을 시사한다.

프레이밍 분석은 국제관계(IR) 이론을 기반으로 현실주의, 자유제도주의, 구성주의 세 축을 정의하고, GPT‑4o를 이용해 자동 라벨링하였다. 결과적으로 모든 모델의 설명이 ‘규범‑협력’ 프레임(안정, 조정, 위험 완화)으로 편중되었으며, ‘적대‑전략’ 프레임(억제, 신호전략)은 거의 나타나지 않았다. Lexical diversity 지표는 모델 간 차이가 크지 않았으며, 특히 Claude와 Gemini는 비교적 높은 TTR을 보였지만, 전체적으로는 반복적인 표현이 관찰되었다.

내부 일관성(Krippendorff’s α)은 모델 간 0.41, 인간 포함 0.39로 중간 수준이며, 이는 모델들이 공통된 사전 학습 데이터와 프롬프트 구조에 의해 일정 부분 동조한다는 것을 의미한다. 시나리오별 정렬 차이는 특히 경쟁 구도가 강한 미중‑대만과 북극 시뮬레이션에서 낮았고, 협력·위기 대응이 중심인 산불 시뮬레이션에서는 가장 높은 정렬을 보였다.

이 연구는 LLM이 제한된 행동 공간과 명시적 프레임을 제공받을 때 인간과 유사한 초기 전략을 구사할 수 있음을 보여주지만, 장기적·복합적 상황에서는 인간 전문가와의 차이가 확대된다는 한계를 드러낸다. 또한 모델이 자동으로 채택하는 규범적 프레이밍은 정책 입안 시 AI가 제시하는 논거가 지나치게 ‘안정·협력’ 중심으로 편향될 위험을 시사한다. 향후 연구는 모델의 위험 감수성 조정, 적대적 프레이밍 강화, 그리고 멀티‑에이전트 상호작용을 통한 전략적 학습 메커니즘을 탐구해야 할 것이다.

전략적 행위자로서의 대형 언어 모델 행동 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기