객관적 보상 차이가 사회적 비교를 주도한다

초록

본 연구는 영장류의 사회적 비교 과정에서 타인의 보상 정보를 어떻게 활용하는지를 계산 모델링으로 탐구한다. 파트너의 주관적 가치 추정을 시도하는 내부 예측 모델(IPM), 파트너 정보를 무시하는 비교 없음 모델(NCM), 파트너의 객관적 보상을 직접 활용하는 외부 비교 모델(ECM) 세 가지 모델을 설계하고, 다층 다중모달 잠재 디리클레 할당(LDA)으로 학습시켰다. 실험 결과 ECM이 Rand Index 0.88로 가장 높은 분류 성능을 보였으며, 이는 사회적 비교가 타인의 주관적 가치 추정보다 객관적 보상 차이에 기반한다는 결론을 뒷받침한다.

상세 요약

이 논문은 사회적 비교가 어떻게 신경계 수준에서 구현되는지를 밝히기 위해, 세 가지 상이한 인지 메커니즘을 수학적으로 구체화한 생성 모델을 제시한다. 첫 번째인 내부 예측 모델(IPM)은 베이즈 추론 프레임워크를 차용해 파트너의 행동과 보상 히스토리를 기반으로 파트너의 주관적 가치 함수를 추정한다. 여기서 파트너의 가치 함수는 베타 분포 형태의 사전으로 초기화되고, 관찰된 보상 결과에 따라 사후 업데이트된다. 두 번째인 비교 없음 모델(NCM)은 전통적인 강화학습 에이전트와 동일하게 자신의 보상 신호만을 이용해 가치 함수를 학습하며, 사회적 정보는 전혀 반영되지 않는다. 세 번째인 외부 비교 모델(ECM)은 파트너의 실제 보상 양을 직접 자신의 가치 평가에 삽입하는 구조로, 보상 차이 ΔR = R_self – R_partner 를 계산해 이를 가치 함수의 가중치에 선형적으로 통합한다.

모델 학습에는 다층 다중모달 잠재 디리클레 할당(LDA) 기법을 변형한 방법을 사용하였다. 입력 데이터는 두 원숭이의 행동 로그, 보상 크기, 그리고 조건 자극(CS)의 시각·청각 특성 등 총 5개의 모달리티로 구성되었으며, 각 모달리티는 별도의 토픽 분포를 갖는다. LDA는 각 트라이얼을 하나의 문서로, 각 모달리티의 관측값을 단어로 간주해 잠재 토픽(즉, 내재된 가치 상태)을 추정한다. 이 과정에서 파라미터 추정은 변분 베이즈 방법으로 수행되었으며, 모델별로 사후 확률을 기반으로 주관적 가치 라벨을 예측한다.

성능 평가는 Rand Index를 사용했으며, 이는 모델이 예측한 라벨링과 실험 설계에 따라 정의된 기준 라벨링 간의 일치도를 측정한다. ECM은 0.88의 높은 점수를 기록했으며, IPM은 0.79, NCM은 0.62로 뒤처졌다. 통계적 유의성 검증을 위해 부트스트랩 재표본추출을 10,000회 수행했으며, ECM이 다른 모델보다 p < 0.001 수준에서 유의하게 우수함을 확인했다.

이 결과는 두 가지 중요한 함의를 가진다. 첫째, 영장류는 파트너의 행동을 통해 주관적 가치를 추론하기보다는, 파트너가 실제로 받은 보상의 절대량을 직접 비교하는 전략을 선호한다는 점이다. 이는 인간의 사회적 비교 이론에서 제시되는 “상대적 위치”와 일치하지만, 인지 부하를 최소화하는 효율적 메커니즘으로 해석될 수 있다. 둘째, 생성 모델을 활용한 다모달 LDA 접근법은 복잡한 사회적 상호작용 데이터를 통합적으로 분석할 수 있는 강력한 도구임을 보여준다. 향후 연구에서는 더 큰 집단, 다양한 사회적 계층, 그리고 신경생리학적 기록을 결합해 모델을 확장함으로써, 사회적 비교가 뇌 회로망에서 어떻게 구현되는지를 정밀하게 규명할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)