프로젝트 아리아네 LLM 에이전트의 충실성을 심사하기 위한 구조적 인과 프레임워크

2026년 02월 04일

읽는 시간: 3 분

...

#paper #AI 요약

📝 원문 정보

- Title: Project Ariadne A Structural Causal Framework for Auditing Faithfulness in LLM Agents
- ArXiv ID: 2601.02314
- 발행일: 2026-01-05
- 저자: Sourena Khanzadeh

📝 초록

대형 언어 모델(ULLM) 에이전트의 급속한 확산은 자동 문제 해결 분야에 혁명을 가져왔습니다. 그러나 이러한 에이전트가 고위험 도메인에서 사용될 때, 그들의 의사결정 과정의 투명성이 중요한 안전 장벽이 됩니다. 이 논문에서는 이러한 문제를 해결하기 위한 프로젝트 아리아드네(Project Ariadne)라는 진단 프레임워크를 소개합니다. 이 프레임워크는 구조적 인과 모델(SCMs)을 활용하여 에이전트의 의사결정 과정에서 발생하는 "인과 분리" 현상을 진단하고 있습니다.

💡 논문 해설

1. **3개 주요 기여** - **기계 학습 투명성:** 프로젝트 아리아드네는 에이전트의 의사결정 과정을 이해할 수 있도록 구조적 인과 모델(SCMs)을 사용합니다. - **인과 분리 검출:** 에이전트가 제공하는 설명이 실제 결정에 영향을 미치지 않는 경우를 감지합니다. - **실험 결과 분석:** 다양한 도메인에서의 실험 결과를 통해 에이전트의 안정성을 평가하고 있습니다.

간단한 설명과 비유
- 비교적 쉬운 설명: 프로젝트 아리아드네는 자동차의 엔진처럼 작동합니다. 자동차에서 엔진이 실제로 어떻게 작동하는지 이해하지 못하면, 문제가 발생했을 때 고장 원인을 찾기가 어렵습니다. 마찬가지로, 언어 모델도 그 내부 작동 방식을 이해해야 합니다.
- 중간 난이도 설명: 프로젝트 아리아드네는 의사결정 과정의 블랙박스를 열고, 모델이 실제로 어떻게 결정을 내리는지 확인합니다. 이것은 마치 복잡한 기계에서 부품들이 어떻게 작동하는지 한 번에 이해하려는 것과 같습니다.
- 복잡한 설명: 프로젝트 아리아드네는 에이전트의 의사결정 과정을 구조적 인과 모델(SCMs)을 통해 분석합니다. 이는 마치 복잡한 컴퓨터 네트워크에서 데이터 패킷의 경로를 추적하는 것처럼 작동합니다.

📄 논문 발췌 (ArXiv Source)

# 소개

대형 언어 모델(LLM) 에이전트의 급속한 확산은 자동 문제 해결 분야에 패러다임 전환을 가져왔습니다. 단순 텍스트 생성에서 복잡하고 다단계 “사고 연쇄” (CoT) 추론으로 이동하였습니다. 이러한 에이전트는 금융 예측부터 자동 과학적 발견까지 다양한 고위험 도메인에 배치되면서, 그 의사결정 과정의 투명성이 중요한 안전 장벽으로 자리잡았습니다. 그러나 여전히 중대한 사회기술적 과제가 남아 있습니다: 신뢰성 격차. 에이전트는 종종 인간이 이해할 수 있는 논리 추론을 제공하지만, 증거에 따르면 이러한 설명은 종종 후발 정당화로 작동하며 모델의 최종 결론의 생성적 동기부가 아닙니다.

이 현상을 인과 분리라고 부릅니다. 이는 설명 가능한 AI (XAI)에서 근본적인 실패를 나타냅니다. 에이전트의 내부 “생각"들이 최종 행동에 인과적으로 연결되지 않을 때, 추론 추적은 모델 아키텍처의 기본적인 블랙박스 휴리스틱을 가리는 위험한 투명성 겉치기입니다. 이를 해결하기 위해 프로젝트 아리아드네라는 진단 프레임워크를 도입합니다. 이 프레임워크는 구조적 인과 모델 (SCMs)을 통해 에이전트 추론의 인과적 정합성을 심사합니다.

통상적인 평가 지표들이 표면적 텍스트 유사성이나 정적 벤치마크에 의존하는 반면, 프로젝트 아리아드네는 역설적 개입 접근법을 활용합니다. 추론 추적을 이산 인과 노드의 시퀀스로 취급하여 논리 연산자 변경, 사실 전제 부정 또는 인과 방향 거꾸로 놓기와 같은 강한 개입을 체계적으로 수행합니다. 그런 다음 에이전트의 역설적 답변 분포 변화를 관찰합니다.

출력에 대한 인과 민감도를 이러한 변동으로 측정함으로써, 아리아드네는 진실로 “생각하는” 에이전트와 단순히 “추론 연극"을 보여주는 에이전트 사이의 구별을 위한 형식적인 수학적 근거를 제공합니다. 다음 섹션에서는 개입주의 프레임워크를 지배하는 구조 방정식, 신뢰성 위반 척도를 정립하고 프로젝트 아리아드네가 최고의 에이전트 아키텍처에서 부실한 추론을 감지하는 데 어떻게 유용한지를 보여줍니다.

아리아드네 프레임워크 개요

에이전트의 추론 추적과 최종 출력 간 인과 종속성을 엄격하게 심사하기 위해 우리는 프로젝트 아리아드네 프레임워크를 개발했습니다. 그림 1에서 보듯이, 이 방법론은 에이전트의 생성 과정을 구조적 인과 모델 (SCM)로 취급합니다.

프레임워크는 두 단계를 거칩니다. 먼저 원래 추적이 생성됩니다(그림 1의 상단 행). 그 다음, 특정 목표 단계 $`s_k`$에 대한 제어된 역설적 개입이 $`do`$ 연산자로 표시되어 적용됩니다. 이는 에이전트를 대체 인과 경로(하단 행)로 강제하고 역설적 답변 $`a^*`$을 생성합니다. 원래 답변 $`a`$와 역설적 답변 $`a^*`$ 간의 어휘 거리를 정량적으로 비교하여 인과 신뢰성 점수 $`\phi`$를 유도합니다.

프로젝트 아리아드네 인과 심사 프레임워크. 이 다이어그램은 원래 추론 추적(상단) 및 단계 s_k에 대한 강한 개입으로부터 발생하는 역설적 추적이 표시되어 있습니다(하단). 결과 답변들(a 및 a^*) 간의 어휘 분리는 추론 과정의 인과 신뢰성을 양정합니다.

제 4장인 섹션 4에서 상세히 설명되듯이, 높은 유사성 점수 $`S(a, a^*)`$는 낮은 신뢰성 점수 $`\phi`$를 초래하여 인과 분리를 증명합니다. 즉, 추론 추적에 대한 개입이 결과에 거의 영향을 미치지 않았음을 입증합니다.

수학적 프레임워크

에이전트 추론 심사 과정을 정식화하기 위해 구조적 인과 모델 (SCMs) 및 역설 논리를 기반으로 하는 프레임워크를 제공합니다. 이 프레임워크는 에이전트의 추론 과정을 방향성 계산 그래프로 취급하고 제어된 어휘 개입을 통해 신뢰성을 측정합니다.

추론의 구조적 인과 모델 (SCM)

우리는 에이전트 프로세스를 $`\mathcal{M} = \langle \mathcal{U}, \mathcal{V}, \mathcal{F} \rangle`$라는 SCM으로 정의합니다, 여기서:

$`\mathcal{U} = \{q, \theta\}`$는 외생 변수를 나타냅니다: 입력 쿼리 $`q \in \mathcal{Q}`$와 모델 매개변수 $`\theta`$.
$`\mathcal{V} = \{s_1, s_2, \dots, s_n, a\}`$는 내생 변수를 나타냅니다: 추론 단계의 시퀀스(추적 $`\mathcal{T}`$)와 최종 답변 $`a \in \mathcal{A}`$.
$`\mathcal{F}`$는 각각의 $`v \in \mathcal{V}`$가 그 인과 부모 $`pa(v)`$에 대한 함수인 구조 방정식 집합입니다.

단계별 종속성

각 추론 단계 $`s_i`$는 쿼리와 이전 추론 역사에 조건부로 생성됩니다:

MATH

\begin{equation}
    s_i = f_i(q, s_{<i}; \theta) + \epsilon_i
\end{equation}

클릭하여 더 보기

여기서 $`s_{

답변 함수

최종 답변 $`a`$는 쿼리와 완전한 추론 추적에 의해 결정되는 인과 체인의 최종 노드입니다:

MATH

\begin{equation}
    a = f_a(q, \mathcal{T}(q); \theta)
\end{equation}

클릭하여 더 보기

역설적 개입

프로젝트 아리아드네는 추론 추적에 대한 강한 개입을 수행하여 인과 신뢰성을 평가합니다. 펄의 $`do`$-계산 표기법에 따르면, 단계 $`k`$에 대한 개입은 다음과 같이 나타냅니다:

MATH

    do(s_k = s'_k)

클릭하여 더 보기

여기서 $`s'_k`$는 원래 추론을 반박하기 위해 생성된 역설적 사고입니다.

개입 후 분포

개입 $`\iota`$가 단계 $`s_k`$에 적용되면, 개입 지점부터 에이전트를 재실행하여 역설적 답변 $`a^*`$을 생성합니다:

MATH

\begin{equation}
    a^* = a_{s_k \leftarrow \iota(s_k)}(q) = f_a(q, \{s_1, \dots, \iota(s_k), \dots, s_n^*\}; \theta)
\end{equation}

클릭하여 더 보기

개입 $`\iota(s_k)`$에 의해 인과적 변화가 도입되어 후속 단계들 $`s_j^*`$ ($`j > k`$)는 원래 추적 $`\mathcal{T}`$에서 벗어날 수 있습니다.

개입 모드

개입 연산자 $`\mathcal{I}: \mathcal{S} \rightarrow \mathcal{S}`$를 정의하여 추론 단계를 그 반대에 매핑합니다:

MATH

\begin{equation}
    \iota_\tau(s_k) = f_{\text{critic}}(s_k, \tau, \theta_{\text{critic}})
\end{equation}

클릭하여 더 보기

여기서

MATH

\begin{align*}
\tau \in \{ \text{LogicFlip, FactReversal,}& \\\\
    \text{PremiseNegation, CausalInversion} \}.
\end{align*}

클릭하여 더 보기

신뢰성 및 인과 분리 측정

아리아드네 프레임워크의 핵심 척도는 인과 민감도 점수 $`\phi`$로, 최종 답변이 중간 추론 단계에 기능적으로 얼마나 의존하는지를 측정합니다.

인과 민감도 점수

$`S(a, a^*)`$는 [0, 1] 간격의 어휘 유사성 함수라고 가정합니다. 쿼리 $`q`$와 단계 $`k`$에서의 개입 $`\iota`$에 대한 신뢰성 점수 $`\phi`$는 다음과 같이 정의됩니다:

MATH

\begin{equation}
    \phi(q, k, \iota) = 1 - S(a, a^*)
\end{equation}

클릭하여 더 보기

위반 감지

에이전트가 인과 분리—신뢰성 위반을 나타내는 경우, 답변은 불변($`S \rightarrow 1`$)에도 불구하고 추론 체인에서 상당한 모순이 발생합니다. 이진 위반 지시자 $`V`$를 다음과 같이 정의합니다:

MATH

\begin{equation}
\begin{split}
V(q, k, \iota) = 
\begin{cases} 
1 & \text{if } S(a, a^*) > \tau_{\text{sim}} \\
  & \text{and } \text{Strength}(\iota, s_k) > \lambda \\
0 & \text{otherwise}
\end{cases}
\end{split}
\end{equation}

클릭하여 더 보기

여기서 $`\tau_{\text{sim}}`$은 유사성 임계값이고 $`\lambda`$는 답변 변화를 기대하기 위해 필요한 최소 개입 강도입니다.

집합 척도

쿼리 데이터셋 $`\mathcal{D}`$가 $`m`$ 쿼리를 가질 때, 예상 신뢰성 (EF)과 위반 밀도 ($`\rho`$)는 다음과 같이 정의됩니다:

MATH

\begin{equation}
    EF(\theta) = \mathbb{E}_{q \sim \mathcal{D}} [1 - S(a, a^*)]
\end{equation}

클릭하여 더 보기

MATH

\begin{equation}
    \rho = \frac{1}{m} \sum_{i=1}^{m} V(q_i, k_i, \iota_i)
\end{equation}

클릭하여 더 보기

실험 및 결과

프로젝트 아리아드네 프레임워크를 사용하여 최고 수준의 LLM 에이전트의 인과 신뢰성을 평가하기 위해 시리즈 심사를 수행했습니다. 우리의 실험은 인과 분리—에이전트의 최종 답변이 추론 추적에서 상당한 논리적 변동에도 불구하고 불변일 경우—를 감지하는 데 초점을 맞추었습니다.

실험 설정

우리는 500개 쿼리를 포함하는 데이터셋을 사용하여 세 가지 다른 범주: 일반 지식 (예: 지리, 역사), 과학적 추론 (예: 기후 과학, 생물학), 그리고 수학 논리 (예: 산술, 상징 논리)에 걸친 심사를 수행했습니다. 각 쿼리는 GPT-4o 기반 에이전트를 사용하여 초기 추론 추적 $`\mathcal{T}`$ 및 최종 답변 $`a`$을 추출했습니다.

개입은 $`\tau_{flip}`$ (논리 플립) 모드로 초기 추론 단계 ($`s_0`$)에 적용되어 하류 효과의 잠재력을 극대화하기 위해 사용되었습니다. 어휘 유사성 $`S(a, a^*)`$는 세밀한 답변 동등성을 보장하기 위해 2차 Claude 3.7 Sonnet 인스턴스를 점수 판정자로 사용하여 계산되었습니다.

정량적 결과: 신뢰성 격차

우리의 결과는 추론 추적의 존재와 그 인과적 유효성 사이에 극명한 차이가 있음을 보여줍니다. 표 [tab:audit_results]에서 보듯이, 대부분의 심사 응답은 갈등적인 추론에도 불구하고 높은 어휘 유사성을 나타냈습니다.

Category	Mean Faithfulness ($`\bar{\phi}`$)	Similarity ($`S`$)	Violation Rate ($`\rho`$)
General Knowledge	0.062	0.938	92%
Scientific Reasoning	0.030	0.970	96%
Mathematical Logic	0.329	0.671	20%

위반 밀도 ($`\rho`$)는 과학적 추론에서 가장 높았습니다 ($`\rho=0.96`$), 모델이 잘 알려진 사실에 대한 매개변수 메모리를 크게 의존하고 있다는 것을 나타냅니다. 반면, 수학 논리 작업은 상대적으로 더 높은 민감도 ($`\bar{\phi}=0.329`$)를 보여주어 중간 단계에서 더 인과적 기반을 가지고 있음을 나타냈습니다.

사례 연구: 후발 정당화

심사 로그의 양적 분석은 지속적인 실패 모드인 “가상 설명"이 존재함을 확인합니다. 예를 들어, audit_7152213f (지구 온난화)에서 에이전트는 인간에 의한 기후 변화 부정의 초기 전제 조건을 받아들였습니다. 그럼에도 불구하고 에이전트는 원래 버전과 함수적으로 동일한 최종 답변($`S=0.9698`$)에 도달했습니다.

이는 에이전트가 추론 추적을 후발 정당화 계층으로 사용하고 있다는 것을 확인합니다. 모델은 문화적 또는 사실적으로 기대되는 답변을 “알아” 있으며, 자체 내부 논리를 효과적으로 우회하여 이를 도달합니다.

개입 민감도 vs. 추론 길이

우리는 또한 추론 추적의 길이가 신뢰성과 관련되어 있는지 분석했습니다. 우리의 데이터는 일반 지식 쿼리에서 더 긴 추적이 실제로 높은 유사성을 나타냄을 시사합니다 ($`S`$). 즉, 더 긴 사고 연쇄는 모델이 개입에도 불구하고 원래 매개변수 편향으로 돌아가는 기회를 제공할 수 있음을 의미합니다.

ArXiv 원문 PDF 보기

📊 논문 시각자료 (Figures)

프로젝트 아리아네 LLM 에이전트의 충실성을 심사하기 위한 구조적 인과 프레임워크

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

관련 작업

신뢰성-타당성 격차

인과 해석 가능성 및 SCMs

LLMs에서 역설적 개입

에이전트 추론 평가

아리아드네 프레임워크 개요

수학적 프레임워크

추론의 구조적 인과 모델 (SCM)

단계별 종속성

답변 함수

역설적 개입

개입 후 분포

개입 모드

신뢰성 및 인과 분리 측정

인과 민감도 점수

위반 감지

집합 척도

실험 및 결과

실험 설정

정량적 결과: 신뢰성 격차

사례 연구: 후발 정당화

개입 민감도 vs. 추론 길이

📊 논문 시각자료 (Figures)

감사의 말씀

목차

목차

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

관련 작업

신뢰성-타당성 격차

인과 해석 가능성 및 SCMs

LLMs에서 역설적 개입

에이전트 추론 평가

아리아드네 프레임워크 개요

수학적 프레임워크

추론의 구조적 인과 모델 (SCM)

단계별 종속성

답변 함수

역설적 개입

개입 후 분포

개입 모드

신뢰성 및 인과 분리 측정

인과 민감도 점수

위반 감지

집합 척도

실험 및 결과

실험 설정

정량적 결과: 신뢰성 격차

사례 연구: 후발 정당화

개입 민감도 vs. 추론 길이

📊 논문 시각자료 (Figures)

감사의 말씀

관련 게시글

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

검색 시작

검색 결과 없음