LLM 기반 사회 디지털 트윈으로 정책 효과 예측 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인구 개별 에이전트를 대형 언어 모델(LLM)로 구동시켜 정책 신호에 대한 행동 확률을 생성하고, 이를 캘리브레이션 레이어로 집계해 실제 관측 지표와 매핑함으로써 정책 개입의 거시적 영향을 정량적으로 예측하는 프레임워크를 제시한다. 코로나19 팬데믹 시기의 이동성 데이터를 활용한 사례 연구에서, 기존 Gradient Boosting 모델 대비 매크로 평균 RMSE를 20.7 % 개선했으며, 정책 강도 변화에 대한 단조성·한계성 검증을 통해 행동 타당성을 확보하였다. 프레임워크는 교통, 환경, 경제 등 다양한 정책 영역에 적용 가능하다는 점을 강조한다.

상세 분석

이 논문은 전통적인 통계‑계량 모델과 규칙 기반 에이전트 기반 모델(ABM)의 한계를 극복하기 위해 LLM을 ‘인지 엔진’으로 활용한 새로운 사회 디지털 트윈(SDT) 개념을 제안한다. 핵심은 (1) 인구를 대표하는 합성 페르소나 집합을 구축하고, (2) 각 페르소나와 정책·시점 컨텍스트를 프롬프트로 변환해 LLM에게 행동 확률 벡터를 생성하도록 하는 점이다. 여기서 LLM은 사전 학습된 방대한 텍스트 코퍼스로부터 인간의 의사결정·선호·위험 인식 등을 내재하고 있어, 사전 정의된 규칙 없이도 다차원 행동을 시뮬레이션한다.

생성된 확률은 바로 관측 가능한 지표와 일치하지 않으므로, 논문은 ‘캘리브레이션 레이어’를 도입한다. 이는 각 행동 차원별 선형 변환(α·p+β)과 클리핑을 통해 LLM 출력과 실제 비율·지표를 정합시키며, 다목적 최적화(Optuna 기반 TPE)로 파라미터를 학습한다. 이 과정은 LLM의 상대적 편향을 보정하고, 실제 데이터와의 정량적 일치를 확보한다는 점에서 중요한 기여이다.

평가 프로토콜은 시계열 분할(학습‑검증‑시험)과 다차원 RMSE, 카테고리별 성능, 베이스라인 대비 개선율, 카운터팩추얼 ‘단조성·한계성’ 검증, 그리고 Ablation Study를 포함한다. 코로나19 사례에서는 6개의 이동성 카테고리(소매·레크리에이션, 식료품·약국, 공원, 대중교통, 직장, 주거)를 목표 변수로 삼아, 10개의 합성 페르소나(UAE 인구 특성 반영)를 사용하였다. LLM 엔진으로는 비용 효율성을 위해 Gemini 2.0 Flash Lite를 선택했으며, 프롬프트는 JSON 형태의 확률 벡터를 반환하도록 설계했다.

실험 결과는 두드러진 차이를 보인다. 특히 ‘직장’ 카테고리에서 89 % 이상의 RMSE 감소를 기록했는데, 이는 정책(잠금·재택근무)과 직장 행동 사이의 인과 관계를 LLM이 잘 포착했기 때문이다. 반면 ‘주거’와 같은 저변동, 관성적 행동은 기존 시계열 기반 모델이 더 정확했으며, 이는 LLM이 메모리·시간 의존성을 충분히 모델링하지 못한다는 한계를 시사한다. 캘리브레이션 없이 raw LLM 확률을 사용하면 RMSE가 78 %까지 급증하는 등, 캘리브레이션 단계가 성능에 결정적임을 확인했다.

논문의 한계는 (1) 샘플 규모가 작아(10명·10일) 실제 대규모 인구 적용 시 비용·시간 문제가 발생할 수 있음, (2) LLM 자체가 최신 사건을 반영하지 못하는 ‘지식 컷오프’ 문제, (3) 정책 효과를 인과적으로 추정하려면 추가적인 구조적 모델링이 필요하다는 점이다. 향후 연구에서는 자동화된 페르소나 생성, 시계열 메모리 모듈 통합, 멀티모달 데이터(이미지·텍스트·센서) 활용, 그리고 정책 설계 단계에서의 최적화 프레임워크와의 연계를 제시한다.

전반적으로 이 연구는 LLM을 활용한 사회 디지털 트윈이 정책 시뮬레이션에 새로운 가능성을 열어주며, 특히 정책‑행동 간 의미론적 연결을 필요로 하는 도메인에서 기존 통계 모델을 보완할 수 있음을 실증적으로 보여준다.

LLM 기반 사회 디지털 트윈으로 정책 효과 예측 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기