전략적 통찰을 위한 고충실도 인간 행동 예측
초록
본 논문은 개인의 심리적 특성을 고차원 특성 프로파일로 변환하여, Llama‑3.1‑8B‑Instruct 기반 모델을 행동 예측 전용으로 파인튜닝한 Large Behavioral Model(LBM)을 제안한다. 2,500명의 참가자를 대상으로 74개의 심리척도와 55개의 전략 시나리오를 수집한 독점 데이터셋을 활용해, 상황과 개인 특성을 동시에 입력함으로써 개별 행동을 높은 정확도로 예측한다. 실험 결과, 기존 프롬프트 기반 베이스라인보다 정확도·균형 정확도·Macro‑F1 모두에서 유의미하게 향상되었으며, Big Five만을 사용한 경우에도 최첨단 모델에 필적하는 성능을 보였다. 또한 특성 차원이 늘어날수록 성능이 지속적으로 개선되는 점을 확인했다.
상세 분석
LBM은 “전이형 페르소나 프롬프트”의 한계를 극복하기 위해, 개인의 심리적 특성을 구조화된 고차원 벡터(t∈ℝ^K, K=74)로 변환하고 이를 매 시나리오 입력에 고정적으로 삽입한다. 이 접근은 두 가지 핵심 장점을 제공한다. 첫째, 트랜스포머가 긴 텍스트에서 중간 정보를 손실하는 “lost‑in‑the‑middle” 현상을 완화하여, 모든 특성값이 모델 내부에 지속적으로 반영된다. 둘째, 특성값을 정규화·순위화한 뒤 JSON 형태로 전달함으로써, 모델이 일관된 형식의 입력을 학습하고, 추론 시 정형화된 JSON 출력을 강제해 파싱 오류를 최소화한다.
학습 단계에서는 LoRA(Low‑Rank Adaptation)를 전 레이어에 적용해 파라미터 효율성을 확보하였다. r=16, α=32, dropout=0.1 설정으로, 원본 Llama‑3.1‑8B‑Instruct의 일반 언어 이해 능력을 유지하면서 행동 예측에 특화된 가중치를 학습한다. 손실 함수는 다중 선택 질문에 대한 교차 엔트로피와, 제공된 경우 제한된 이유(trace) 텍스트에 대한 추가 로그‑우도 항을 가중합한 형태이며, 이는 정답 선택 정확도와 설명 일관성을 동시에 최적화한다.
평가에서는 시나리오를 75% 학습, 25% 테스트로 분할하고, 클래스 불균형을 고려해 balanced accuracy와 macro‑F1를 주요 지표로 채택했다. LBM은 베이스라인 Llama‑3.1‑8B‑Instruct 대비 정확도가 0.42→0.48, balanced accuracy가 0.24→0.31, macro‑F1이 0.16→0.26으로 각각 6~10%p 상승했다. 특히 Big Five 5개 특성만 사용했을 때도, 최신 상용 LLM(예: GPT‑4‑Turbo)과 비슷한 수준의 성능을 기록했다.
추가 실험에서는 특성 차원을 단계적으로 증가시켰을 때, 프롬프트 기반 모델은 성능 정체(복잡도 천장)를 보였으나 LBM은 지속적인 향상을 나타냈다. 이는 고차원 심리 프로파일이 모델 내부에 효과적으로 통합될 수 있음을 시사한다. 한계점으로는 데이터가 자발적 자원봉사 샘플에 의존해 인구통계적 편향이 존재하고, 특성값을 순위화함으로써 미세한 연속적 차이를 손실할 가능성이 있다. 또한, 현재는 5지선다형 선택에 초점을 맞추었으므로, 복합 행동 시퀀스나 장기 전략 예측에는 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기