인간 실험 시뮬레이션을 위한 AI 에이전트 설계 벤치마크
초록
본 논문은 LLM을 인간 실험 참가자로 활용할 때 발생하는 불안정성을 ‘에이전트 설계’ 문제로 재정의하고, 실험 전체 프로토콜을 재현·평가할 수 있는 HumanStudy‑Bench 벤치마크와 실행 엔진을 제시한다. Filter‑Extract‑Execute‑Evaluate 파이프라인을 통해 12개의 고전 실험을 6,000여 트라이얼 규모로 재구성하고, 현상 수준의 Probability Alignment Score(PAS)와 효과 규모 수준의 Effect Consistency Score(ECS)라는 두 가지 정량 지표로 인간과 AI 에이전트의 과학적 추론 일치를 측정한다. 실험 결과 현재 LLM 기반 에이전트는 도메인·설계에 따라 편차가 크며, 단순히 모델 크기만 키워도 정합도가 크게 향상되지 않음을 보여준다.
상세 분석
HumanStudy‑Bench는 LLM을 ‘원시 모델’이 아닌 ‘에이전트’로 취급한다는 점에서 기존 평가와 근본적으로 차별된다. 에이전트는 기본 모델과 사양(specification)으로 구성되며, 사양에는 역할 프롬프트, 인구통계적 속성, 기억·도구 사용 등 행동 가설을 명시한다. 이러한 설계 공간을 명시적으로 탐색함으로써 동일 모델이라도 사양에 따라 전혀 다른 행동 패턴을 보일 수 있음을 입증한다. 논문은 12개의 대표적 인간 실험을 선정하는 필터링 단계에서 ‘전체 실험 절차 공개’, ‘통계적 검증 가능’, ‘시뮬레이션 구현 가능’이라는 세 가지 기준을 적용해 신뢰성을 확보한다. 추출 단계에서는 참가자 프로필, 실험 조건, 트라이얼 순서, 원본 통계 검정 등을 구조화된 스키마로 변환하고, 인간 검증자를 통해 오류를 최소화한다. 실행 엔진은 추출된 스키마를 기반으로 각 실험마다 자동으로 트라이얼 생성기, 프롬프트 구성기, 응답 집계기를 생성해 동일한 런타임에서 다양한 에이전트를 교체·실행할 수 있게 한다. 평가 단계에서는 두 가지 새로운 메트릭을 도입한다. PAS는 인간과 에이전트가 동일한 가설을 채택하거나 기각하는 확률을, 인간 표본의 불확실성을 베이지안 방식으로 보정해 계산한다. ECS는 효과 크기(예: Cohen’s d, Pearson r)의 차이를 정규화된 거리로 측정해 데이터 수준의 일치를 정량화한다. 실험 결과는 (1) 현재 LLM 기반 에이전트가 인간과 유사한 평균 효과를 보이기보다 양극화된 bimodal 분포를 나타내며, (2) ‘역할 연기’, ‘인구통계 조건부’, ‘풍부한 배경 스토리’ 등 사양이 성능에 비선형·비단조적인 영향을 미치고, (3) 모델 규모 확대나 단순 앙상블이 PAS·ECS를 일관되게 개선하지 못한다는 점을 강조한다. 이는 LLM 자체의 능력보다 에이전트 설계와 실험 프로토콜 적합성이 시뮬레이션 정확도에 결정적임을 시사한다. 또한, 인간 표본의 변동성을 고려하지 않은 기존 지표가 과대평가를 초래할 수 있음을 경고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기