소셜 미디어 토론에서 LLM을 활용한 금융 필요 계층 분석
초록
본 논문은 레딧 등 소셜 미디어에 게시된 개인 금융 관련 글을 대규모 언어 모델(LLM)과 토픽 모델링(LDA) 기법으로 분석하여, 금융 필요가 기본적인 생활 필요에서 장기적 자산 축적까지 단계적으로 계층화된다는 가설을 검증한다. 연령·소득 정보를 추출하고, 두 가지 기존 이론 프레임워크(NHF·NPF)에 매핑함으로써 필요 단계와 소득·연령 간의 양적 관계를 밝히고, 감정·스트레스·위험 성향 등 행동 특성까지 함께 제시한다.
상세 분석
이 연구는 기존 행동과학에서 제시된 인간 필요 계층 이론을 금융 영역에 적용하려는 시도로, 두 가지 주요 이론적 틀인 Maslow 기반의 Needs Hierarchy Framework(NHF)와 García‑Mata·Zerón‑Felix가 제안한 Financial Needs Prioritization Framework(NPF)를 동시에 검증한다. 데이터 수집 단계에서는 2020‑2023년 기간의 레딧 4개 서브레딧(r/personalfinance, r/FinancialPlanning, r/investing, r/EstatePlanning)에서 614 089개 이상의 포스트를 크롤링하고, 연령·소득을 명시적으로 언급한 334명의 사용자(총 6 709개 포스트)만을 선별하였다. 이는 “연령·소득 명시 여부”라는 필터링 기준이 데이터 편향을 초래할 가능성을 내포하지만, 연구 목적상 개인의 재정 상황을 정량화하기 위한 필수 전처리라 할 수 있다.
LLM 활용은 두 차원에서 핵심 역할을 한다. 첫째, Llama 계열 모델을 Groq API를 통해 프롬프트 기반으로 적용해 포스트 요약, 핵심 질의 추출, 필요 라벨링, 그리고 연령·소득·감정·스트레스·위험 성향 등 행동 특성 추출을 자동화했다. 프롬프트 설계와 검증 과정이 상세히 기술되지 않았음에도 불구하고, “수동 검증을 통한 프롬프트 튜닝”이라는 언급은 결과 신뢰성을 어느 정도 확보했음을 시사한다. 둘째, 필요 라벨을 NHF와 NPF 두 프레임워크에 매핑함으로써 계층 구조를 정량화했다. NHF는 7단계(기본·안전·소속·존경·자기초월·자기실현)로 정의했으며, 분석 편의를 위해 안전·자기초월을 각각 하나의 카테고리로 통합해 5단계로 축소하였다. NPF는 소비·비상저축·은퇴·부·생활향상이라는 3단계로 단순화하였다.
통계적 검증에서는 소득과 필요 단계 간의 양의 상관관계를 확인했다. Table 2의 Panel A에서 기본 필요를 충족하는 사용자의 평균 월소득이 $6 536에서 사랑·소속 단계 $7 568으로 상승하고, Panel B에서도 소비·즉시 필요 단계($6 774)보다 비상저축($6 952)·은퇴·부·생활향상($7 232) 단계에서 소득이 높아지는 경향을 보였다. 이는 “소득이 상승할수록 보다 상위 단계의 금융 필요를 추구한다”는 가설을 실증적으로 뒷받침한다. 또한 연령과 소득 간의 정규성 관계가 51‑60세에서 최고점($9 158)을 기록하고, 60세 이상에서 감소하는 패턴은 전통적인 인생주기 이론과 일치한다.
행동 특성 분석에서는 감정(긍정·부정), 스트레스 수준(저‑중‑고), 위험 성향(보수‑계산‑모험) 등을 LLM과 text2emotion 라이브러리로 추출했다. 결과적으로 고소득·고연령 그룹이 ‘자기실현·자선’ 단계에 도달할수록 긍정적 감정 비중이 상승하고, 위험 성향이 ‘모험‑지향’으로 전환되는 경향을 보였다. 반면 저소득·청년층은 기본·안전 필요에 머무르며 스트레스 수준이 ‘중‑고’에 집중되는 것이 관찰되었다.
주제 모델링(LDA MALLET)에서는 최적 토픽 수(k)를 스큐니스 기반으로 선정했으며, 각 필요 라벨별 토픽 분포를 통해 “주거·대출”, “투자·주식”, “연금·퇴직”, “여가·여행” 등 구체적 금융 관심사가 단계별로 변형됨을 확인했다. 이는 기존 설문 기반 연구에서 제시된 ‘소비‑저축‑투자’ 전이 모델을 텍스트 데이터 기반으로 재현한 셈이다.
한계점으로는 (1) 연령·소득 자체가 자발적 공개에 의존하므로 표본 편향 가능성, (2) LLM 프롬프트에 대한 상세 공개가 없어 재현성 검증이 어려움, (3) 댓글·답변 등 상호작용 데이터를 제외함으로써 필요 충족 과정의 다이내믹스를 놓쳤다는 점을 들 수 있다. 향후 연구에서는 멀티모달 데이터(댓글·이미지·링크)와 시계열 분석을 결합해 필요 변화의 인과관계를 더 정교히 탐색할 여지가 있다.
전반적으로 이 논문은 대규모 비구조화 텍스트를 LLM과 전통적 토픽 모델링으로 정형화하여, 금융 필요의 계층적 구조와 그와 소득·연령·행동 특성 간의 정량적 연관성을 최초로 실증한 점에서 학술적·실무적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기