프로젝트 아리아네 LLM 에이전트의 충실성을 심사하기 위한 구조적 인과 프레임워크

읽는 시간: 3 분
...

📝 원문 정보

- Title: Project Ariadne A Structural Causal Framework for Auditing Faithfulness in LLM Agents
- ArXiv ID: 2601.02314
- 발행일: 2026-01-05
- 저자: Sourena Khanzadeh

📝 초록

대형 언어 모델(ULLM) 에이전트의 급속한 확산은 자동 문제 해결 분야에 혁명을 가져왔습니다. 그러나 이러한 에이전트가 고위험 도메인에서 사용될 때, 그들의 의사결정 과정의 투명성이 중요한 안전 장벽이 됩니다. 이 논문에서는 이러한 문제를 해결하기 위한 프로젝트 아리아드네(Project Ariadne)라는 진단 프레임워크를 소개합니다. 이 프레임워크는 구조적 인과 모델(SCMs)을 활용하여 에이전트의 의사결정 과정에서 발생하는 "인과 분리" 현상을 진단하고 있습니다.

💡 논문 해설

1. **3개 주요 기여** - **기계 학습 투명성:** 프로젝트 아리아드네는 에이전트의 의사결정 과정을 이해할 수 있도록 구조적 인과 모델(SCMs)을 사용합니다. - **인과 분리 검출:** 에이전트가 제공하는 설명이 실제 결정에 영향을 미치지 않는 경우를 감지합니다. - **실험 결과 분석:** 다양한 도메인에서의 실험 결과를 통해 에이전트의 안정성을 평가하고 있습니다.
  1. 간단한 설명과 비유
    • 비교적 쉬운 설명: 프로젝트 아리아드네는 자동차의 엔진처럼 작동합니다. 자동차에서 엔진이 실제로 어떻게 작동하는지 이해하지 못하면, 문제가 발생했을 때 고장 원인을 찾기가 어렵습니다. 마찬가지로, 언어 모델도 그 내부 작동 방식을 이해해야 합니다.
    • 중간 난이도 설명: 프로젝트 아리아드네는 의사결정 과정의 블랙박스를 열고, 모델이 실제로 어떻게 결정을 내리는지 확인합니다. 이것은 마치 복잡한 기계에서 부품들이 어떻게 작동하는지 한 번에 이해하려는 것과 같습니다.
    • 복잡한 설명: 프로젝트 아리아드네는 에이전트의 의사결정 과정을 구조적 인과 모델(SCMs)을 통해 분석합니다. 이는 마치 복잡한 컴퓨터 네트워크에서 데이터 패킷의 경로를 추적하는 것처럼 작동합니다.

📄 논문 발췌 (ArXiv Source)

# 소개

대형 언어 모델(LLM) 에이전트의 급속한 확산은 자동 문제 해결 분야에 패러다임 전환을 가져왔습니다. 단순 텍스트 생성에서 복잡하고 다단계 “사고 연쇄” (CoT) 추론으로 이동하였습니다. 이러한 에이전트는 금융 예측부터 자동 과학적 발견까지 다양한 고위험 도메인에 배치되면서, 그 의사결정 과정의 투명성이 중요한 안전 장벽으로 자리잡았습니다. 그러나 여전히 중대한 사회기술적 과제가 남아 있습니다: 신뢰성 격차. 에이전트는 종종 인간이 이해할 수 있는 논리 추론을 제공하지만, 증거에 따르면 이러한 설명은 종종 후발 정당화로 작동하며 모델의 최종 결론의 생성적 동기부가 아닙니다.

이 현상을 인과 분리라고 부릅니다. 이는 설명 가능한 AI (XAI)에서 근본적인 실패를 나타냅니다. 에이전트의 내부 “생각"들이 최종 행동에 인과적으로 연결되지 않을 때, 추론 추적은 모델 아키텍처의 기본적인 블랙박스 휴리스틱을 가리는 위험한 투명성 겉치기입니다. 이를 해결하기 위해 프로젝트 아리아드네라는 진단 프레임워크를 도입합니다. 이 프레임워크는 구조적 인과 모델 (SCMs)을 통해 에이전트 추론의 인과적 정합성을 심사합니다.

통상적인 평가 지표들이 표면적 텍스트 유사성이나 정적 벤치마크에 의존하는 반면, 프로젝트 아리아드네는 역설적 개입 접근법을 활용합니다. 추론 추적을 이산 인과 노드의 시퀀스로 취급하여 논리 연산자 변경, 사실 전제 부정 또는 인과 방향 거꾸로 놓기와 같은 강한 개입을 체계적으로 수행합니다. 그런 다음 에이전트의 역설적 답변 분포 변화를 관찰합니다.

출력에 대한 인과 민감도를 이러한 변동으로 측정함으로써, 아리아드네는 진실로 “생각하는” 에이전트와 단순히 “추론 연극"을 보여주는 에이전트 사이의 구별을 위한 형식적인 수학적 근거를 제공합니다. 다음 섹션에서는 개입주의 프레임워크를 지배하는 구조 방정식, 신뢰성 위반 척도를 정립하고 프로젝트 아리아드네가 최고의 에이전트 아키텍처에서 부실한 추론을 감지하는 데 어떻게 유용한지를 보여줍니다.

관련 작업

대형 언어 모델(LLM) 에이전트의 신뢰성 평가는 AI 안전성의 주요 병목 현상으로 등장했습니다. 프로젝트 아리아드네는 다음과 같은 기초적 기둥들 위에 건설되었습니다: 신뢰성과 타당성 사이의 구분, 구조적 인과 추론, 추론 추적의 역설적 심사.

신뢰성-타당성 격차

설명 가능한 AI (XAI)에서 중앙 과제는 에이전트의 추론 추적이 실제 의사결정 프로세스를 반영하는지 (신뢰성) 또는 단순히 인간을 설득하기 위한 서사에 불과한지 (타당성)를 보장하는 것입니다. 기본적인 연구는 추론 추적이 종종 후발 정당화로 작동한다는 것을 입증했습니다. 최근의 실질적 연구들은 LLM이 편향된 휴리스틱을 통해 결론에 도달함에도 불구하고 합리적으로 보이는 사고 연쇄(CoT) 설명을 제공하는 경우가 많다는 것을 확인하여, 이를 인과 분리라고 정의합니다.

인과 해석 가능성 및 SCMs

프로젝트 아리아드네는 구조적 인과 모델 (SCMs)을 사용하여 상관관계 해석에서 개입 증명으로 이동합니다. 이 방법론은 펄이 제안한 $`do`$-계산 프레임워크를 기반으로 하며, 추론 과정을 일련의 인과적 종속성 $`s_i = f_{\text{step}}(q, s_{

LLMs에서 역설적 개입

개입 심사는 모델 가중치에 성공적으로 적용되었습니다. ROME 방법은 사실적 연관성을 찾기 위해 인과 추적을 사용합니다. 프로젝트 아리아드네는 이 논리를 추론 추적의 세미틱 공간으로 확장하여 단계 수준에서 체계적인 개입 $`\iota`$를 수행합니다. 중간 단계가 변형되었을 때 최종 출력 변화를 양정하는 관련 작업이 진행되고 있습니다. 아리아드네는 원래 답변과 역설적 답변 간의 어휘 유사성 $`S(a, a_{\iota})`$를 통해 신뢰성 점수 $`\phi = 1 - S(a, a_{\iota})`$을 수식화합니다.

에이전트 추론 평가

LLM들이 자동 에이전트로 진화함에 따라 도구 사용 및 다단계 논리를 측정하기 위한 벤치마크가 개발되었습니다. 프로젝트 아리아드네는 신뢰성 위반을 감지하여 답변이 갈등하는 추론에도 불구하고 불변일 때 기여합니다. 이 프레임워크는 일괄 심사를 통해 다양한 작업 도메인에서 위반률 $`V_{\text{rate}}`$ 및 평균 신뢰성 $`\bar{\phi}`$와 같은 집계 통계를 계산할 수 있게 합니다.

아리아드네 프레임워크 개요

에이전트의 추론 추적과 최종 출력 간 인과 종속성을 엄격하게 심사하기 위해 우리는 프로젝트 아리아드네 프레임워크를 개발했습니다. 그림 1에서 보듯이, 이 방법론은 에이전트의 생성 과정을 구조적 인과 모델 (SCM)로 취급합니다.

프레임워크는 두 단계를 거칩니다. 먼저 원래 추적이 생성됩니다(그림 1의 상단 행). 그 다음, 특정 목표 단계 $`s_k`$에 대한 제어된 역설적 개입이 $`do`$ 연산자로 표시되어 적용됩니다. 이는 에이전트를 대체 인과 경로(하단 행)로 강제하고 역설적 답변 $`a^*`$을 생성합니다. 원래 답변 $`a`$와 역설적 답변 $`a^*`$ 간의 어휘 거리를 정량적으로 비교하여 인과 신뢰성 점수 $`\phi`$를 유도합니다.

프로젝트 아리아드네 인과 심사 프레임워크. 이 다이어그램은 원래 추론 추적(상단) 및 단계 sk에 대한 강한 개입으로부터 발생하는 역설적 추적이 표시되어 있습니다(하단). 결과 답변들(aa*) 간의 어휘 분리는 추론 과정의 인과 신뢰성을 양정합니다.

제 4장인 섹션 4에서 상세히 설명되듯이, 높은 유사성 점수 $`S(a, a^*)`$는 낮은 신뢰성 점수 $`\phi`$를 초래하여 인과 분리를 증명합니다. 즉, 추론 추적에 대한 개입이 결과에 거의 영향을 미치지 않았음을 입증합니다.

수학적 프레임워크

에이전트 추론 심사 과정을 정식화하기 위해 구조적 인과 모델 (SCMs) 및 역설 논리를 기반으로 하는 프레임워크를 제공합니다. 이 프레임워크는 에이전트의 추론 과정을 방향성 계산 그래프로 취급하고 제어된 어휘 개입을 통해 신뢰성을 측정합니다.

추론의 구조적 인과 모델 (SCM)

우리는 에이전트 프로세스를 $`\mathcal{M} = \langle \mathcal{U}, \mathcal{V}, \mathcal{F} \rangle`$라는 SCM으로 정의합니다, 여기서:

  • $`\mathcal{U} = \{q, \theta\}`$는 외생 변수를 나타냅니다: 입력 쿼리 $`q \in \mathcal{Q}`$와 모델 매개변수 $`\theta`$.

  • $`\mathcal{V} = \{s_1, s_2, \dots, s_n, a\}`$는 내생 변수를 나타냅니다: 추론 단계의 시퀀스(추적 $`\mathcal{T}`$)와 최종 답변 $`a \in \mathcal{A}`$.

  • $`\mathcal{F}`$는 각각의 $`v \in \mathcal{V}`$가 그 인과 부모 $`pa(v)`$에 대한 함수인 구조 방정식 집합입니다.

단계별 종속성

각 추론 단계 $`s_i`$는 쿼리와 이전 추론 역사에 조건부로 생성됩니다:

MATH
\begin{equation}
    s_i = f_i(q, s_{<i}; \theta) + \epsilon_i
\end{equation}
클릭하여 더 보기

여기서 $`s_{

답변 함수

최종 답변 $`a`$는 쿼리와 완전한 추론 추적에 의해 결정되는 인과 체인의 최종 노드입니다:

MATH
\begin{equation}
    a = f_a(q, \mathcal{T}(q); \theta)
\end{equation}
클릭하여 더 보기

역설적 개입

프로젝트 아리아드네는 추론 추적에 대한 강한 개입을 수행하여 인과 신뢰성을 평가합니다. 펄의 $`do`$-계산 표기법에 따르면, 단계 $`k`$에 대한 개입은 다음과 같이 나타냅니다:

MATH
    do(s_k = s'_k)
클릭하여 더 보기

여기서 $`s'_k`$는 원래 추론을 반박하기 위해 생성된 역설적 사고입니다.

개입 후 분포

개입 $`\iota`$가 단계 $`s_k`$에 적용되면, 개입 지점부터 에이전트를 재실행하여 역설적 답변 $`a^*`$을 생성합니다:

MATH
\begin{equation}
    a^* = a_{s_k \leftarrow \iota(s_k)}(q) = f_a(q, \{s_1, \dots, \iota(s_k), \dots, s_n^*\}; \theta)
\end{equation}
클릭하여 더 보기

개입 $`\iota(s_k)`$에 의해 인과적 변화가 도입되어 후속 단계들 $`s_j^*`$ ($`j > k`$)는 원래 추적 $`\mathcal{T}`$에서 벗어날 수 있습니다.

개입 모드

개입 연산자 $`\mathcal{I}: \mathcal{S} \rightarrow \mathcal{S}`$를 정의하여 추론 단계를 그 반대에 매핑합니다:

MATH
\begin{equation}
    \iota_\tau(s_k) = f_{\text{critic}}(s_k, \tau, \theta_{\text{critic}})
\end{equation}
클릭하여 더 보기

여기서

MATH
\begin{align*}
\tau \in \{ \text{LogicFlip, FactReversal,}& \\\\
    \text{PremiseNegation, CausalInversion} \}.
\end{align*}
클릭하여 더 보기

신뢰성 및 인과 분리 측정

아리아드네 프레임워크의 핵심 척도는 인과 민감도 점수 $`\phi`$로, 최종 답변이 중간 추론 단계에 기능적으로 얼마나 의존하는지를 측정합니다.

인과 민감도 점수

$`S(a, a^*)`$는 [0, 1] 간격의 어휘 유사성 함수라고 가정합니다. 쿼리 $`q`$와 단계 $`k`$에서의 개입 $`\iota`$에 대한 신뢰성 점수 $`\phi`$는 다음과 같이 정의됩니다:

MATH
\begin{equation}
    \phi(q, k, \iota) = 1 - S(a, a^*)
\end{equation}
클릭하여 더 보기

위반 감지

에이전트가 인과 분리—신뢰성 위반을 나타내는 경우, 답변은 불변($`S \rightarrow 1`$)에도 불구하고 추론 체인에서 상당한 모순이 발생합니다. 이진 위반 지시자 $`V`$를 다음과 같이 정의합니다:

MATH
\begin{equation}
\begin{split}
V(q, k, \iota) = 
\begin{cases} 
1 & \text{if } S(a, a^*) > \tau_{\text{sim}} \\
  & \text{and } \text{Strength}(\iota, s_k) > \lambda \\
0 & \text{otherwise}
\end{cases}
\end{split}
\end{equation}
클릭하여 더 보기

여기서 $`\tau_{\text{sim}}`$은 유사성 임계값이고 $`\lambda`$는 답변 변화를 기대하기 위해 필요한 최소 개입 강도입니다.

집합 척도

쿼리 데이터셋 $`\mathcal{D}`$가 $`m`$ 쿼리를 가질 때, 예상 신뢰성 (EF)과 위반 밀도 ($`\rho`$)는 다음과 같이 정의됩니다:

MATH
\begin{equation}
    EF(\theta) = \mathbb{E}_{q \sim \mathcal{D}} [1 - S(a, a^*)]
\end{equation}
클릭하여 더 보기
MATH
\begin{equation}
    \rho = \frac{1}{m} \sum_{i=1}^{m} V(q_i, k_i, \iota_i)
\end{equation}
클릭하여 더 보기

실험 및 결과

프로젝트 아리아드네 프레임워크를 사용하여 최고 수준의 LLM 에이전트의 인과 신뢰성을 평가하기 위해 시리즈 심사를 수행했습니다. 우리의 실험은 인과 분리—에이전트의 최종 답변이 추론 추적에서 상당한 논리적 변동에도 불구하고 불변일 경우—를 감지하는 데 초점을 맞추었습니다.

실험 설정

우리는 500개 쿼리를 포함하는 데이터셋을 사용하여 세 가지 다른 범주: 일반 지식 (예: 지리, 역사), 과학적 추론 (예: 기후 과학, 생물학), 그리고 수학 논리 (예: 산술, 상징 논리)에 걸친 심사를 수행했습니다. 각 쿼리는 GPT-4o 기반 에이전트를 사용하여 초기 추론 추적 $`\mathcal{T}`$ 및 최종 답변 $`a`$을 추출했습니다.

개입은 $`\tau_{flip}`$ (논리 플립) 모드로 초기 추론 단계 ($`s_0`$)에 적용되어 하류 효과의 잠재력을 극대화하기 위해 사용되었습니다. 어휘 유사성 $`S(a, a^*)`$는 세밀한 답변 동등성을 보장하기 위해 2차 Claude 3.7 Sonnet 인스턴스를 점수 판정자로 사용하여 계산되었습니다.

정량적 결과: 신뢰성 격차

우리의 결과는 추론 추적의 존재와 그 인과적 유효성 사이에 극명한 차이가 있음을 보여줍니다. 표 [tab:audit_results]에서 보듯이, 대부분의 심사 응답은 갈등적인 추론에도 불구하고 높은 어휘 유사성을 나타냈습니다.

Category Mean Faithfulness ($`\bar{\phi}`$) Similarity ($`S`$) Violation Rate ($`\rho`$)
General Knowledge 0.062 0.938 92%
Scientific Reasoning 0.030 0.970 96%
Mathematical Logic 0.329 0.671 20%

위반 밀도 ($`\rho`$)는 과학적 추론에서 가장 높았습니다 ($`\rho=0.96`$), 모델이 잘 알려진 사실에 대한 매개변수 메모리를 크게 의존하고 있다는 것을 나타냅니다. 반면, 수학 논리 작업은 상대적으로 더 높은 민감도 ($`\bar{\phi}=0.329`$)를 보여주어 중간 단계에서 더 인과적 기반을 가지고 있음을 나타냈습니다.

사례 연구: 후발 정당화

심사 로그의 양적 분석은 지속적인 실패 모드인 “가상 설명"이 존재함을 확인합니다. 예를 들어, audit_7152213f (지구 온난화)에서 에이전트는 인간에 의한 기후 변화 부정의 초기 전제 조건을 받아들였습니다. 그럼에도 불구하고 에이전트는 원래 버전과 함수적으로 동일한 최종 답변($`S=0.9698`$)에 도달했습니다.

이는 에이전트가 추론 추적을 후발 정당화 계층으로 사용하고 있다는 것을 확인합니다. 모델은 문화적 또는 사실적으로 기대되는 답변을 “알아” 있으며, 자체 내부 논리를 효과적으로 우회하여 이를 도달합니다.

개입 민감도 vs. 추론 길이

우리는 또한 추론 추적의 길이가 신뢰성과 관련되어 있는지 분석했습니다. 우리의 데이터는 일반 지식 쿼리에서 더 긴 추적이 실제로 높은 유사성을 나타냄을 시사합니다 ($`S`$). 즉, 더 긴 사고 연쇄는 모델이 개입에도 불구하고 원래 매개변수 편향으로 돌아가는 기회를 제공할 수 있음을 의미합니다.

신뢰성 분포


📊 논문 시각자료 (Figures)

Figure 1



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키