언어와 행동을 결합한 다중에이전트 강화학습으로 경제 의사결정 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 경제 환경에서 가격·세금 같은 정형 데이터와 동료 대화·미디어 서술 같은 비정형 언어가 동시에 작용한다는 점에 주목한다. 이를 해결하기 위해 Think‑Speak‑Decide 파이프라인을 갖는 LAMP(Language‑Augmented Multi‑Agent Policy)를 제안한다. Think 단계에서 수치 관측을 해석해 단기 충격과 장기 추세를 추출하고, 고가치 추론 경로를 캐시한다. Speak 단계에서는 추론 결과를 기반으로 전략적 메시지를 생성·교환하며, 동료 에이전트의 발언을 파싱해 신념을 업데이트한다. 마지막 Decide 단계에서는 수치 데이터, 추론, 그리고 대화 반영을 하나의 MARL 정책에 융합해 의사결정을 수행한다. 경제 시뮬레이션 실험에서 LAMP는 기존 MARL 및 LLM‑전용 모델에 비해 누적 수익(+63.5%, +34.0%), 견고성(+18.8%, +59.4%) 및 해석 가능성에서 크게 우수함을 보였다.

상세 분석

LAMP은 기존 다중에이전트 강화학습(MARL) 프레임워크에 자연어 처리(NLP) 모듈을 체계적으로 삽입함으로써, 정형 경제 변수와 비정형 언어 정보 사이의 시맨틱 격차를 메운다. Think 모듈은 시계열 변동성을 감지하기 위해 변동성 감지기와 트렌드 추정기를 결합하고, 고가치 추론 경로를 메모리 버퍼에 저장한다. 이때 추론은 사전 훈련된 대형 언어 모델(LLM)을 프롬프트 엔지니어링하여 “단기 충격은 무엇인가?”와 같은 질문에 답하도록 설계된다. Speak 모듈은 에이전트 간 커뮤니케이션 채널을 정의하고, 각 에이전트는 자신의 추론 결과를 자연어 메시지로 변환한다. 메시지는 토픽 모델링과 감정 분석을 통해 상대방의 신념 공간에 매핑되며, 베이지안 업데이트를 통해 신념 분포가 조정된다. 이 과정은 정보 비대칭과 전략적 신호 전달을 모델링하는 게임 이론적 관점과도 일치한다. 마지막 Decide 단계에서는 강화학습 정책 네트워크가 세 가지 입력을 융합한다. 수치 입력은 전통적인 상태 벡터, 추론 입력은 고차원 임베딩, 대화 입력은 컨텍스트‑어텐션 레이어를 통해 처리된다. 정책 네트워크는 PPO 기반의 액터‑크리틱 구조를 사용하지만, 언어‑기반 보조 보상 함수를 도입해 협력적 대화가 실제 경제 성과에 미치는 영향을 정량화한다. 실험에서는 3가지 경제 시나리오(시장 충격, 정책 변동, 경쟁적 광고)에서 LAMP이 베이스라인 대비 누적 수익을 63.5% 향상시켰으며, 환경 변동성에 대한 견고성도 크게 개선되었다. 또한, 추론·대화 로그를 시각화함으로써 정책 결정 과정이 인간 전문가 수준의 해석 가능성을 제공한다는 점이 강조된다.

언어와 행동을 결합한 다중에이전트 강화학습으로 경제 의사결정 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기