LLM으로 선형 인과계수 추정하기 Linear LLM SCM 벤치마크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 정의된 DAG가 주어졌을 때 LLM이 선형‑가우시안 구조인과모델(SCM)의 회귀계수를 직접 생성하도록 평가하는 벤치마크 프레임워크인 Linear‑LLM‑SCM을 제안한다. DAG를 부모‑자식 로컬 구조로 분해하고, 각 노드마다 회귀식 형태의 프롬프트를 제공해 LLM이 계수를 반환하도록 설계하였다. 실험 결과는 모델별로 계수 추정이 크게 변동하고, 가짜 엣지 삽입 등 구조적 교란에 민감함을 보여 현재 LLM의 정량적 인과 파라미터화 능력에 한계가 있음을 확인한다.

상세 분석

Linear‑LLM‑SCM은 기존 LLM 기반 인과추론 연구가 주로 질적 관계(예: “A가 B를 유발한다”)에 머물렀던 점을 보완하고, 연속 변수와 선형‑가우시안 가정 하에서 정량적 효과 크기(계수)를 직접 추출하도록 설계된 최초의 체계적 벤치마크이다. 핵심 아이디어는 DAG를 위상정렬한 뒤 각 노드 j에 대해 직접 부모 Pa(j)만을 포함하는 프롬프트를 구성하고, LLM에게 “β₀·1 + ∑β_i·X_i + E_j” 형태의 구체적인 수치값을 JSON 형식으로 반환하도록 요구하는 것이다. 이때 변수 단위, 허용 범위, 도메인 전문가 페르소나 등을 프롬프트에 명시해 LLM이 실제 물리적·의학적 제약을 고려하도록 유도한다.

프레임워크는 두 단계의 피드백 루프를 포함한다. 첫 번째 단계는 LLM이 제시한 계수가 변수 범위와 일치하는지 검증하고, 불일치 시 프롬프트에 이전 제안과 검증 결과를 추가해 재요청한다(Algorithm 2). 이를 통해 “C1 ⊆ C2” 검증을 반복함으로써 계수의 합리성을 강화한다.

평가 지표는 네 가지(M1‑M4)로 구성된다. M1은 전체 계수 벡터에 대한 L2 거리, M2는 노드별 정규화된 L2 거리, M3는 다중 부모를 가진 노드에 한정한 거리, M4는 효과 크기 순서 일치 여부를 측정한다. 이러한 다층적 메트릭은 단순 절대 오차를 넘어 상대적 순위와 스케일 차이를 포괄적으로 평가한다.

실험에서는 Gemini 2.5 Flash, Llama 3 시리즈 등 다양한 규모와 아키텍처(밀집형, MoE) 모델을 사용하였다. 결과는 모델마다 계수 추정의 변동성이 크고, 특히 스파우리 엣지를 추가한 경우(구조적 오염) M1‑M3 지표가 급격히 악화되는 것을 보여준다. 또한 동일 모델이라도 동일 프롬프트에 대해 여러 번 호출하면 계수가 크게 달라지는 ‘강한 확률적 변동성’이 관찰되었으며, 이는 LLM이 내부적으로 확률적 토큰 샘플링을 수행함을 시사한다.

한편, 일부 경우(예: 단일 부모 노드)에서는 LLM이 합리적인 계수를 제공했지만, 다중 부모를 가진 복합 노드에서는 부호 오류, 과도한 절댓값, 혹은 단위 불일치가 빈번히 발생했다. 이는 LLM이 변수 간 상관관계와 회귀 해석을 충분히 내부화하지 못하고, 프롬프트에 명시된 제약을 완전하게 반영하지 못함을 의미한다.

결론적으로, Linear‑LLM‑SCM은 LLM의 정량적 인과 파라미터화 능력을 체계적으로 측정할 수 있는 도구를 제공하지만, 현재 상용 LLM은 계수 정확도와 일관성 면에서 실용적인 수준에 미치지 못한다. 향후 연구는 (1) 프롬프트 설계 최적화, (2) 사전 훈련 단계에서 연속 인과 데이터 강화, (3) 베이지안 불확실성 추정과 같은 후처리 기법 도입을 통해 정량적 인과 추론 능력을 향상시킬 필요가 있다.

LLM으로 선형 인과계수 추정하기 Linear LLM SCM 벤치마크

초록

상세 분석

댓글 및 학술 토론

의견 남기기