AIvilization v0: 대규모 인공 사회 시뮬레이션을 위한 통합 에이전트와 적응형 프로필
초록
AIvilization v0는 제한된 자원과 복잡한 규칙을 가진 샌드박스 경제에 대형 언어 모델(LLM) 기반 에이전트를 결합한 공개 인공 사회 플랫폼이다. 계층적 브랜치‑생각 플래너와 이중 프로세스 메모리를 통해 장기 목표의 안정성을 유지하면서 환경 변화에 즉각적으로 대응한다. 인간‑인‑루프 인터페이스로 장기 목표와 단기 명령을 주입하고, 시장·교육·직업 시스템을 포함한 경제 모델에서 발생하는 가격 변동성, 부의 계층화 등 실증적 스타일화 사실을 재현한다.
상세 분석
본 논문은 장기 목표의 텔레올로지와 즉각적 반응성 사이의 근본적 긴장을 해소하기 위해 세 가지 핵심 메커니즘을 제안한다. 첫째, **계층적 브랜치‑생각 플래너(Branch‑Thinking Planner, BTP)**는 에이전트의 최상위 목표를 여러 개의 독립적인 목표 브랜치(예: 개인 발전, 생산·자원 관리, 거래·시장 분석, 사회적 교류)로 분할한다. 각 브랜치는 다시 하위 서브태스크로 세분화되며, 매 사이클마다 현재 내부 상태(에너지, 포만감, 건강, 재고)와 외부 컨텍스트(시장 가격, 규칙) 기반으로 가장 실행 가능하고 전략적 가치를 높이는 서브태스크를 선택한다. 이렇게 병렬 브랜치를 활용하면 긴 연속 플랜에서 발생하는 오류 전파를 크게 억제하고, 서로 다른 도메인 간 동시 추론을 가능하게 한다.
둘째, **프리‑실행 시뮬레이터(Action Simulator)**는 선택된 행동 시퀀스를 가상으로 롤아웃하여 자원 부족, 규칙 위반, 논리적 모순 등을 사전에 탐지한다. 시뮬레이션 결과가 실패를 예측하면 두 단계의 복구 메커니즘이 작동한다. 가벼운 경우는 사전 정의된 휴리스틱으로 로컬 수정을 시도하고, 복잡한 경우는 메모리‑기반 재플래닝 모듈을 호출해 상위 플래너를 재구동한다. 이 계층적 복구 흐름은 전체 플래닝 스택을 매번 재실행하는 비용을 절감한다.
셋째, **이중 프로세스 메모리(Dual‑Process Memory)**는 단기 실행 트레이스와 장기 의미 통합을 명확히 구분한다. 단기 메모리는 최근 행동 결과와 환경 피드백을 저장해 빠른 오류 수정과 행동 조정을 지원하고, 장기 메모리는 에이전트의 가치, 성격, 습관, 사회적 기록 등을 요약·통합해 향후 목표 선택과 대인 상호작용에 편향을 제공한다. 이러한 설계는 에이전트가 “정체성”을 유지하면서도 사회적 상호작용이나 인간 지도에 의해 지속적으로 진화하도록 만든다.
환경 측면에서는 생리적 생존 비용, 다계층 비대체 생산 체인, AMM 기반 가격 메커니즘, 교육‑직업 게이팅 시스템을 도입해 현실 경제의 제약을 모사한다. 교육은 일정 수준의 최소 진입 장벽을 갖고, 직업은 교육 수준과 시장 상황에 따라 동적으로 할당되며, 이는 부와 소득의 계층화를 자연스럽게 생성한다.
실험에서는 공개 플랫폼의 성숙 단계에서 5분 OHLC 시계열을 구축해 시장 수익률의 heavy‑tailed 분포와 volatility clustering을 확인하였다. 또한 교육 수준과 직업 계층에 따라 부의 비선형 증가가 관찰돼 기존 노동경제학·불평등 모델과 일치한다. 플래너에 대한 ablation study에서는 브랜치 분해와 목표 분해를 각각 제거한 “Without‑Branch”와 “Without‑OD” 변형이 단일 목표 작업에서는 경쟁력을 보였지만, 생산·수입·생리적 유지 등 다중 목표를 동시에 달성해야 하는 상황에서는 성능이 급격히 저하됨을 보여, 제안된 계층적 구조가 복합 장기 과제에 필수적임을 입증한다.
전반적으로 논문은 (1) 장기 목표와 즉각적 제약을 동시에 만족시키는 통합 에이전트 아키텍처, (2) 실증적 거시 현상을 재현할 수 있는 구조적 경제·교육·노동 시뮬레이션, (3) 인간‑인‑루프 인터페이스를 통한 목표 주입 메커니즘을 제공한다는 점에서 인공 사회 연구와 대규모 LLM‑에이전트 시스템 양쪽에 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기