LLM이 이끄는 사회학습 조정 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정보 중개자 역할을 하는 대형 언어 모델(LLM)이 순차적인 사회학습 환경에서 개인에게 제공하는 신호의 정밀도를 전략적으로 선택함으로써 전체 사회 복지를 극대화하거나 특정 행동을 유도하는 최적 정책을 이론적으로 분석한다. 가치 함수의 볼록성을 증명하고, 이타적 플래너와 편향적 플래너 각각에 대한 최적 정책 구조를 도출한다. 시뮬레이션을 통해 LLM이 실제로 이러한 전략을 구현하며, 비베이즈적 행동 양식도 나타남을 확인한다.

상세 분석

논문은 먼저 전통적인 사회학습 모델에 정보 중개자(planner)를 추가하여, 플래너가 각 에이전트에게 제공하는 사적 신호의 정확도 (q_i) 를 비용 함수 (\beta(q_i)) 를 고려해 선택하도록 설계한다. 신호는 이진이며 실제 상태 (\omega\in{G,B}) 와 일치할 확률이 (q_i) 로 정의된다. 각 에이전트는 공개된 히스토리 (H_i) 와 자신의 신호를 이용해 사후 신념 (\tilde b_i) 를 계산하고, 이를 기반으로 행동 (a_i) 를 선택한다. 행동 규칙은 (\tilde b_i) 가 0.5 이상이면 신호에 따라 (G) 를, 이하이면 (B) 를 선택하도록 명시된다. 이때 공개 신념 (b_i) 는 마코프 과정으로 업데이트되며, 특정 구간 (

LLM이 이끄는 사회학습 조정 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기