경제 게임으로 파악하는 대형 언어 모델의 신뢰성 편향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 연구는 인간 중심의 신뢰할 수 있는 AI 시스템 구축을 위해 AI 자체의 신뢰 수준을 측정하는 새로운 방법을 제안합니다. 행동 게임 이론의 ‘신뢰 게임’과 반복적 맥락 학습을 결합해 여러 대형 언어 모델(LLM)의 신뢰성 선행 분포(사전 믿음)를 추정한 결과, GPT-4.1의 신뢰성 판단이 인간과 가장 유사한 패턴을 보였습니다. 또한, 모델의 신뢰성 판단이 상대방의 특성(페르소나)에 따라 달라지며, 이는 ‘따뜻함’과 ‘능력’에 대한 고정관념 기반 모델로 잘 예측될 수 있음을 보여줍니다.

상세 분석

본 연구의 방법론적 핵심은 베이지안 통계 모델링과 반복적 맥락 학습의 창의적 결합에 있습니다. 연구자들은 신뢰 게임에서 수탁자(Trustee)의 행동을 모델링하기 위해 베타-이항(Beta-Binomial) 모델을 채택했습니다. 여기서 신뢰성 파라미터 ‘r’은 수탁자가 받은 자금 중 반환할 비율을 나타내며, 이에 대한 모델의 사전 믿음은 베타 분포(Beta prior)로 가정됩니다. 핵심 아이디어는 정보 병목 현상을 유도하는 반복 학습 과정을 설계하여, 모델이 제한된 과거 상호작용 데이터(5개)만을 보고 ‘r’을 추론한 후, 그 추정치를 바탕으로 새로운 상호작용 데이터를 생성하는 사이클을 반복하는 것입니다. 이 과정은 마르코프 체인을 형성하며, 충분한 반복 후 체인의 정상 분포는 모델의 진정한 사전 분포(즉, 데이터에 영향을 받지 않는 본연의 신뢰성 편향)로 수렴하게 됩니다.

이 방법을 20개의 최신 LLM(OpenAI GPT, Claude, Gemini, Llama, Qwen 등)에 적용한 결과, 모델 간 신뢰성 선행 분포에 현저한 차이가 발견되었습니다. 인간의 평균 반환 비율(0.372)과 분포를 기준으로 한 KL 발산(Kullback–Leibler divergence) 측정에서 GPT-4.1이 가장 낮은 점수(0.130)를 기록하며 인간과 가장 유사한 패턴을 보였습니다. 이는 GPT-4.1이 훈련 데이터를 통해 인간의 사회적 규범을 효과적으로 내재화했을 가능성을 시사합니다. 반면, 다른 모델들은 인간보다 극단적으로 이타적(반환 비율 높음)이거나 이기적(반환 비율 낮음)인 편향을 보이기도 했습니다.

두 번째 주요 실험에서는 가장 인간적인 GPT-4.1을 대상으로 신뢰 게임에서 신탁자(Trustor)의 페르소나(예: ‘회계사’, ‘간호사’, ‘범죄자’)가 모델의 신뢰성 예측에 미치는 영향을 조사했습니다. 그 결과, 모델은 직업, 성별, 도덕적 성향 등에 따라 체계적으로 다른 신뢰성 수준을 기대하는 것으로 나타났습니다. 이 변이를 설명하기 위해 연구진은 사회심리학의 ‘고정관념 내용 모형’(Stereotype Content Model)을 적용했습니다. 이 모형은 사회적 집단을 ‘따뜻함’(친근감, 호의성)과 ‘능력’(유능함, 효율성)의 두 차원으로 평가합니다. 분석 결과, GPT-4.1이 특정 페르소나에 부여한 신뢰성 수준은 모델이 해당 페르소나에 대해 추정한 ‘따뜻함’과 ‘능력’ 점수로 구성된 선형 모델을 통해 높은 정확도(R² = 0.85)로 예측 가능했습니다. 이는 LLM의 사회적 판단이 단순한 통계적 패턴 이상으로, 인간과 유사한 고정관념 체계를 반영할 수 있음을 보여주는 강력한 증거입니다.

경제 게임으로 파악하는 대형 언어 모델의 신뢰성 편향

초록

상세 분석

댓글 및 학술 토론

의견 남기기