경제적 사실 드러내기: LLM은 말하는 것보다 더 많이 알고 있다
초록
이 연구는 대규모 언어 모델(LLM)의 숨겨진 상태(hidden states)를 활용하여 경제 및 금융 통계(예: 군 실업률, 기업 총자산)를 추정하고 대체(imputation)할 수 있는지 조사합니다. 오픈소스 LLM의 숨겨진 상태에 간단한 선형 모델을 학습시켜 추정한 결과가 모델의 텍스트 출력보다 더 정확한 것으로 나타났습니다. 이는 LLM의 내부 표현이 직접적인 응답으로 드러나는 것보다 더 풍부한 경제 정보를 담고 있음을 시사합니다. 학습 곡선 분석 결과, 수십 개의 레이블된 예시만으로도 충분한 학습이 가능했으며, 대상 변수에 대한 레이블 데이터 없이도 정확도를 높일 수 있는 전이 학습 방법도 제안합니다. 또한, 숨겨진 상태 표현이 데이터 대체 및 초해상도(super-resolution) 작업에서 실용적인 유용성을 입증했습니다.
상세 분석
본 논문은 LLM의 ‘숨겨진 지식(latent knowledge)‘을 활용하는 혁신적인 방법론을 제시합니다. 핵심 아이디어는 LLM이 훈련 과정에서 방대한 경제 데이터에 노출되었지만, 이 정보가 항상 자연어 생성(Natural Language Generation)을 통해 명시적으로 검색 가능한 형태는 아니라는 점에 있습니다. 예를 들어, 특정 카운티의 정확한 모기지 연체율 데이터가 훈련 코퍼스에 없더라도, LLM은 미국 카운티에 대한 일반화된 경제 이해를 내부 표현(임베딩)에 인코딩하고 있을 수 있습니다.
연구팀은 이 내부 표현을 추출하기 위해 ‘선형 탐사(Linear Probing)’ 기법을 채택했습니다. 구체적으로, 특정 지역이나 기업을 언급하는 프롬프트(예: “Orange County, California in 2019”)의 마지막 토큰에 해당하는 숨겨진 상태 벡터를 추출하고, 여기에 릿지(Ridge) 회귀 모델을 학습시켜 목표 통계량을 예측합니다(LME: Linear Model on Embeddings). 이 접근법의 강점은 다음과 같습니다.
첫째, 계산 효율성과 단순성입니다. 거대한 생성 모델을 추론에 사용하는 것보다 작은 선형 모델을 학습하는 것이 훨씬 저렴하고 빠릅니다. 논문에서는 사고 연쇄(Chain-of-Thought) 등 복잡한 추론을 수행하는 모델보다 LME가 더 우수한 성능을 보이면서도 계산 비용은 훨씬 낮았다고 보고합니다.
둘째, 소량 학습(Few-shot Learning)의 효용성입니다. 학습 곡선 분석을 통해 많은 경우 수십 개의 레이블된 샘플만으로도 LME가 높은 성능에 도달할 수 있음을 보였습니다. 이는 실무에서 레이블 데이터 수집이 어려운 경제/금융 분야에서 큰 장점이 됩니다.
셋째, 노이즈 라벨을 활용한 전이 학습이라는 창의적인 방법을 제안합니다. 대상 변수(Y)에 대한 레이블이 아예 없는 경우, 두 가지 정보원을 결합합니다: 1) 다른 레이블된 변수들(예: 인구, GDP)에 대해 학습된 LME 모델들의 가중치, 2) LLM의 텍스트 출력을 ‘노이즈가 있는 라벨’로 사용합니다. 신경망이 초기에는 깨끗한 신호를 학습하고 후기에 노이즈를 암기한다는 기존 연구에 기반해, 조기 종료(Early Stopping)를 적용해 노이즈 라벨의 과적합을 방지하면서도 라벨 자체의 정확도보다 높은 성능을 달성했습니다.
기술적으로, Llama 3 (1B, 8B, 70B), Phi-3-mini 등 다양한 크기의 오픈소스 모델을 실험하여 방법론의 일반성을 입증했습니다. 또한, 숨겨진 상태의 어떤 레이어를 사용하는지가 성능에 영향을 미치며, 본 실험에서는 25번째 레이어에서 최적의 성능을 보였다는 점도 흥미로운 관찰입니다. 이는 모델의 중간층이 추상적인 ‘개념’ 표현을 더 잘 담고 있을 가능성을 시사합니다.
궁극적으로 이 연구는 LLM을 단순한 텍스트 생성기가 아닌, 구조화된 지식 베이스나 특징 추출기로 활용할 수 있는 새로운 패러다임을 제시합니다. 경제 예측, 지리 공간적 분석, 금융 리스크 평가 등 데이터 기반 의사결정 분야에 LLM을 효율적으로 통합하는 길을 열었다는 점에서 실용적 가치가 매우 큽니다.
댓글 및 학술 토론
Loading comments...
의견 남기기