LLM을 활용한 행동금융 파라미터 정밀계측 프레임워크

LLM을 활용한 행동금융 파라미터 정밀계측 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어모델(LLM)을 행동금융의 핵심 파라미터(손실회피, 군집, 외삽 등)를 측정·보정하는 실험 도구로 활용한다. 네 종류의 LLM과 24 000개의 에이전트‑시나리오를 통해 기본 LLM은 인간 대비 합리성 편향(손실회피 약함, 군집 약함, 처분 효과 거의 없음)을 보이며, 프로파일 프롬프트를 이용한 보정으로 파라미터 값을 인간 벤치마크 수준까지 크게 이동시킨다. 보정된 파라미터를 에이전트 기반 자산가격 모델에 삽입하면 단기 모멘텀·장기 반전 현상이 재현돼 외부 타당성을 확인한다. 연구는 파라미터 측정 범위, 보정 함수, 적용 한계 등을 제시한다.

상세 분석

이 연구는 행동금융에서 핵심적인 여덟 가지 편향(손실회피 λ, 외삽 θ, 과신 κ, 앵커링 ρ, 군집 w, 확률 가중 γ, 위험 회피 γ, 대표성 τ)을 잠재 변수로 보고, 기존 인간 실험이 갖는 측정오차·식별문제·확장성 한계를 극복하기 위해 대형 언어모델을 ‘계측 장비’로 전환한다. 핵심 아이디어는 프롬프트에 행동 프로파일(예: “당신은 손실을 크게 두려워한다”)을 삽입해 LLM 내부의 의사결정 메커니즘을 외생적으로 조작하고, 그 결과 선택을 통해 목표 파라미터 값을 추정한다. 이를 위해 저자는 네 가지 모델(GPT‑4o, GPT‑4o‑mini, Claude‑3.5‑Haiku, Gemini‑2.5‑Pro)와 19 200개의 에이전트‑시나리오(잔여 4 800은 파싱 오류로 제외)에서 베이스라인과 다양한 강도의 프로파일을 적용했다.

베이스라인 결과는 LLM이 인간 실험 대비 ‘합리성 편향’—즉 손실회피 λ가 1.121.90(인간 평균 ≈2.25), 군집 비율이 6575%보다 낮고, 처분 효과가 거의 없음을 보여준다. 이는 LLM이 훈련 데이터에서 최적화된 기대효용을 따르는 경향이 있음을 시사한다.

프로파일 보정 단계에서는 파라미터 변화가 단조적이고 안정적이며 이론적 일관성을 유지한다는 네 가지 검증 기준(C1C4)을 만족한다. 손실회피 프로파일은 λ를 3.00까지 끌어올리고, 군집‑지향 프로파일은 군집 비율을 90%까지, 외삽 프로파일은 θ를 0.88까지, 앵커링 프로파일은 ρ를 0.67까지 상승시켰다. 각 파라미터는 인간 벤치마크(λ 2.02.5, w 0.650.75 등)와 2050% 오차 범위 내에 들어가 ‘강한’ 혹은 ‘중간’ 검증 등급을 획득한다.

외부 타당성 검증으로, 보정된 파라미터를 단순 에이전트 기반 자산가격 모델에 삽입했다. 외삽 θ가 높은 에이전트는 단기 모멘텀을, 장기에서는 평균 회귀를 생성해 Jegadeesh‑Titman(1993) 스타일의 수익률 패턴을 재현했다. 반면 베이스라인 합리적 에이전트는 이러한 현상이 나타나지 않아, 보정 파라미터가 실제 시장 메커니즘에 의미 있는 영향을 미침을 입증한다.

이 프레임워크는 측정 범위(θ_min, θ_max), 보정 함수(θ(s)), 그리고 적용 한계(예: 복잡한 다중 선택 상황에서 패턴 매칭 위험)를 명시한다. 또한, ‘구조적 일관성 테스트’, ‘적대적 시나리오 통과율’, ‘교차 파라미터 예측’ 등 세 가지 기능적 타당성 검증을 도입해 LLM이 단순 패턴 복제에 머무르지 않고 실제 인과적 변화를 일으키는지를 확인한다.

결과적으로, LLM은 인간 실험이 불가능한 대규모, 저비용, 고정밀 파라미터 조작을 제공하며, 행동금융 이론 검증 및 정책 시뮬레이션에 새로운 계측 도구로 활용될 가능성을 보여준다. 다만, 모델별 파싱 오류, 프롬프트 설계 민감도, 그리고 훈련 데이터에 내재된 편향이 보정 한계에 영향을 미칠 수 있기에 향후 연구에서는 이러한 변수를 체계적으로 통제할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기