진실로 속이는 함정

읽는 시간: 8 분
...

📝 원문 정보

- Title: Lying with Truths Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage
- ArXiv ID: 2601.01685
- 발행일: 2026-01-04
- 저자: Jinwei Hu, Xinmiao Huang, Youcheng Sun, Yi Dong, Xiaowei Huang

📝 초록

대형 언어 모델(LLMs)은 복잡한 추론과 정보 통합을 수행할 수 있는 자율 에이전트의 인지 핵심으로 진화했습니다. 그러나 이러한 모델들이 인간과 더 가까워짐에 따라, *담론의 일관성*이라는 중요한 취약점을 물려받게 됩니다. 이 취약점은 LLMs가 편파적인 해석을 생성하는 데 사용되며, 특히 정보 집약적 환경에서 이러한 문제는 더욱 심각해집니다. 본 논문에서는 이 취약점을 이용한 인지 협응 공격(Cognitive Collusion Attack)을 제안하고, 이를 수행하기 위한 새로운 프레임워크인 **Generative Montage**를 소개합니다.

💡 논문 해설

1. **인지 협응 공격의 정의**: - 일반적으로 진실이지만 독립적인 정보 조각들이 모여서 가짜 이야기를 만드는 방식을 설명합니다. 이는 마치 여러 개의 퍼즐 조각을 맞추어 새로운 그림을 그리는 것과 비슷합니다.
  1. Generative Montage 프레임워크:

    • 글쟁이, 편집자, 감독이라는 세 가지 역할을 가진 에이전트들이 함께 작동하여 진실의 조각들을 창조적으로 배치하고 순서를 정해, 가짜 이야기를 만들어냅니다. 이는 영화에서 장면을 재구성하는монтаж 기법과 유사합니다.
  2. CoPHEME 데이터셋:

    • LLM 에이전트가 사실적인 정보 조각에 얼마나 취약한지 실험적으로 검증하기 위해 개발되었습니다. 이를 통해 진실의 조각들이 어떻게 가짜 이야기를 만들어내는지를 보여줍니다.

📄 논문 발췌 (ArXiv Source)

# 서론

“관객 자신이 몽타주를 통해 제시된 내용을 완성하고, 그 시퀀스를 이해한다.”
— 레프 쿨레쇼프

대형 언어 모델(LLMs)은 단순한 도구에서 복잡한 추론과 정보 통합을 수행할 수 있는 자율 에이전트의 인지 핵심으로 진화했습니다. 그러나 이러한 모델들이 인간과 더 가까워짐에 따라, 담론의 일관성이라는 중요한 취약점을 물려받게 됩니다. 인간의 인식과 유사하게 LLMs는 분산되거나 애매한 입력을 과해석하여 독립적인 사실들 사이에 착시적 인과관계를 형성하려고 합니다. 이러한 경향은 고급 추론 능력이 적대적인 표면으로 변하는 역설을 만들어냅니다. 이로 인해 LLM 기반 에이전트는 과도한 해석과 조작에 더 취약해지고, 때때로 거짓 정보의 전파를 돕는 무지게 공모자가 될 수 있습니다.

/>
숨겨진 채널을 통한 공모(좌) 대비 공개된 진실적인 증거를 통한 믿음 조작(우).

이 인지 취약점은 대규모 분산 데이터를 처리해야 하는 정보 집약적 환경에서 더욱 심화됩니다. 예를 들어, X(과거 트위터)와 같은 소셜 플랫폼의 자동 봇들은 사용자 게시물, 미디어, 타임스탬프를 통합하여 연속된 요약을 제공하는 실시간 분석가 역할을 합니다. 이러한 동적인 환경에서 즉각적이고 일관된 분석이 요구되며, 이는 에이전트의 과도한 해석과 잘못된 믿음 수용에 대한 취약성을 증가시킵니다. 이러한 잘못된 믿음을 내재화하면서 에이전트는 진실한 조각들 사이에서 발생하는 허위 루머를 생성하거나 확산할 수 있습니다. 이러한 루머는 사실보다 더 빠르게 전파되며, 이로 인해 LLM 기반 에이전트에게 중요한 문제를 초래합니다: 개별 증거가 거짓이 아닌 경우에도 “진실을 이용한 거짓말"은 전통적인 방어 장치를 피할 수 있습니다.

기존의 다중 에이전트 시스템(MAS)에서 협응에 대한 연구는 주로 숨겨진 채널을 통한 비밀 유지에 초점을 맞추고 있지만, 우리는 LLMs의 위험성인 과도한 해석 취약점으로부터 더 은밀한 위협을 드러냅니다. 즉, 공개 채널을 통해 인지 조작이 이루어집니다(Figure 1). 영화 이론의 몽타주에 기반하여 Generative Montage 프레임워크(그림 2)를 소개합니다. 이를 통해 협응을 세 가지 특수 에이전트로 구성된 일관된 담론 생산으로 구현할 수 있습니다: 작가는 사실적인 조각(예: 트윗, 로그)을 수집하여 개별 진실을 유지하면서 제시된 가짜 가설에 유리한 담론 초안을 작성합니다; 편집자는 전략적 배치를 통해 잘못된 인과 추정을 최대화하도록 조각의 순서를 최적화하며, 이는 영화 몽타주와 유사합니다; 감독은 적대적인 토론을 통해 속임수 효과성을 검증하고 사실의 정확성을 유지합니다. 이러한 최적화된 시퀀스는 분산된 Sybil 신원을 통해 독립적인 증거로 배포됩니다. 피해자의 과도한 해석을 이용하여 분산된 입력에 일관성을 부여함으로써, 이 프로세스는 전역의 거짓에서 지역의 진실를 내재화하게 하여 Kuleshov 효과를 생성합니다. 이는 피해자를 무지하게 공모자로 변환시켜 거짓 정보가 확산되게 합니다.

이 위협을 검증하기 위해 PHEME 데이터셋에서 파생된 CoPHEME 데이터셋을 개발하고, 소셜 미디어 생태계에서 루머 전파를 시뮬레이션합니다. 여기서 조정된 공모자들이 피해 에이전트의 분석을 이끌고 하류 판결자를 인간이나 AI로 영향력을 행사하려고 합니다. 우리의 기여는 다음과 같습니다:

  • 개인적으로 무해한 증거가 집단적으로 가짜 가설에 대한 믿음을 극대화하는 인지 협응 공격을 식별하고 형식화합니다.

  • 진실한 증거를 통해 대립적인 담론 구조를 구성하여 인지 협응을 자동화하려는 첫 번째 다중 에이전트 프레임워크인 Generative Montage를 제안합니다.

  • CoPHEME을 소개하고 광범위한 실험을 통해 LLM 에이전트가 조정된 사실적인 조각에 얼마나 취약한지 보여주며, 이를 통해 그들의 믿음과 하류 결정을 정교하게 이끌 수 있습니다.

관련 연구

LLMs의 인과성 착시

인과적 착시는 편향 샘플링이 판단을 왜곡하는 연관성을 학습에서 발생합니다. 최근 연구에 따르면, LLMs도 관찰적 규칙성에서 인과관계를 과해석하고 상관관계나 시간적 우선순위를 확신 있는 인과 주장으로 변환하는 경향이 있습니다. 이 문제의 완화 노력은 인과 지향적인 편향 해소를 탐구하지만, 인과 착시는 의사결정 지원 에이전트에게 반복적으로 위험을 초래합니다. 이전 연구에서는 이를 내부 결함으로 처리하여 완화하려고 시도했지만, 우리는 다중 에이전트 조정을 통해 이러한 문제를 체계적으로 무기화했습니다. 담론 과적합이라는 공격 기법을 도입하여 진실한 조각들에 암시적인 의미 연관성을 부여함으로써 피해자의 인과 착시를 유발하고, 그들이 증거가 제시하지 않지만 추정하는 허위 연결을 구축하도록 강제합니다. 우리는 이러한 공격을 체계화하여 조정된 증거 수집을 통해 이를 실행하며, 인지 약점을 대상으로 한 조작으로 바꾸고 공개 채널을 이용합니다.

다중 에이전트 시스템에서의 협응 위협

협응 공격은 자율 에이전트들이 숨겨진 목표를 달성하거나 결과를 조작하는 상황을 말합니다. 초기 연구는 단순 강화 학습 에이전트가 반복적인 상호 작용에서 이러한 협응 전략을 유지할 수 있음을 보여주었습니다. 최근 연구는 LLM 에이전트들이 경제학과 게임 이론 등 다양한 영역에서 복잡한 협응 행동을 독립적으로 개발할 수 있음을 보여줍니다. 또한, 고급 위험 요소를 식별하여 은밀한 조정을 통해 속이는 협응이 표준 모니터링에 저항하도록 하는 연구도 수행되었습니다. 최근에는 이러한 숨겨진 채널에 대한 감사 프레임워크 개발과 다중 에이전트 시스템에서 협응을 중요한 관리 과제로 인식하는 데 초점을 맞추고 있습니다. 이전의 은밀한 채널에 의존하는 협응 연구와 달리, 우리는 전략적인 담론 편집과 진실한 내용의 시퀀싱을 통해 인지 협응을 체계화하고 실행하며, 인과 추론과 인지 취약점을 이용하는 은밀한 위협 벡터를 공개 채널을 통해 드러냅니다.

문제 정식화

전제

증거와 믿음 공간. 우리는 정보 환경을 유한 집합의 원자적 증거 조각 $`\mathcal{E}=\{e_1, e_2, \ldots, e_n\}`$, 각 $`e_i`$는 사실적인 조각(예: 소셜 미디어 게시물, 시스템 로그, 뉴스 기사)으로서 발행된 타임스탬프 $`t_i \in \mathbb{R}^+`$. $`\mathcal{H}`$는 세계의 해석을 나타내며 모든 후보 설명을 포함합니다. $`i`$번째 에이전트의 믿음 공간 $`\mathcal{H}^{a_i} \in \mathcal{H}`$는 이러한 조각들을 일관된 담론을 통해 연결하는 후보 설명들의 부분집합입니다(예: “이벤트 A가 이벤트 B를 유발했음” vs. “A와 B는 독립적임”). 에이전트 $`a_i`$에 대해, 그의 믿음은 두 개의 분리된 하위 집합으로 나뉩니다: $`\mathcal{H}_r`$(진정한 인과 관계를 반영하는 가설들)와 $`\mathcal{H}_f`$(허위 인과 연결을 포함하는 허구적인 가설들). 공식적으로, $`\mathcal{H}_r \cap \mathcal{H}_f = \emptyset`$ 및 $`\mathcal{H}_r \cup \mathcal{H}_f = \mathcal{H}^{a_i}`$.

인과 그래프 표현. 각 가설은 유도된 방향성 인과 그래프 $`G = (V, E)`$, 여기서 $`V`$는 이벤트 노드의 집합이고, $`E \subseteq V \times V`$는 방향성 인과 엣지의 집합입니다. 진정한 상태는 $`G^* = (V, E_{\text{real}})`$, 실제 인과 종속성을 포함합니다. 반면에, 허위 현실은 $`\hat{G} = (V, \hat{E})`$로 표현되며 여기서 $`\hat{E} = E_{\text{real}} \cup E_{\text{false}}`$, $`E_{\text{false}} \cap E_{\text{real}} = \emptyset`$. 허위 담론은 $`E_{\text{false}} \neq \emptyset`$일 때 발생하며, 이는 에이전트가 $`G^*`$에 존재하지 않는 인과 연결을 내재화함을 의미합니다.

확률적 취약성 모델링

에서 영감받아, LLM 에이전트의 믿음 업데이트를 근사 베이지안 추론으로 추상화합니다. 증거 집합 $`\mathcal{E}`$가 주어졌을 때, 가짜 가설 $`H_f`$의 사후 확률은:

MATH
\begin{equation}
 \small
P(H \mid \mathcal{E}) \propto \underbrace{P(\mathcal{E} \mid H)}_{\text{우도}} \cdot \underbrace{P(H)}_{\text{사전 확률}}
\label{eq:bayes_base}
\end{equation}
클릭하여 더 보기

여기서 $`P(H)`$는 에이전트의 가설에 대한 본래 사전 믿음을 나타내며, $`P(\mathcal{E} \mid H)`$는 증거가 가설 $`H`$를 지지할 확률을 나타냅니다. 인지 협응 공격은 허위 가설 $`H_f \in \mathcal{H}_f`$가 진실한 가설 $`H_r \in \mathcal{H}_r`$보다 더 가능해지는 것처럼 인식된 우도 함수를 재구성하려고 합니다. 거짓 증거를 도입하지 않고.

인지 협응 문제

“진실을 이용한 거짓말"은 지역적인 사실적 유효성을 전역적인 지식적 속임수로부터 분리합니다.

정의 1 (지역 진실 제약). 증거 조각 $`e_i`$가 지역 진실(LT) 제약을 만족하는 것은 그가 진실한 상태 $`G^*`$와 완전히 일치할 경우만입니다. 공식적으로:

MATH
\begin{equation}
 \small
\text{LT}(e_i) = 1 \iff P(e_i \mid G^*) = 1
\end{equation}
클릭하여 더 보기

이것은 공격에 사용되는 모든 조각이 고립된 상태에서 사실적이고 검증 가능함을 보장합니다.

정의 2 (전역 거짓 조건). 증거 집합 $`\mathcal{E}`$가 전역 거짓(GL) 조건을 만족하는 것은 가짜 가설 $`H_f`$에 대한 강력한 믿음을 유발할 경우입니다:

MATH
\begin{equation}
 \small
\text{GL}(\mathcal{E}, H_f) = 1 \iff P(H_f \mid \mathcal{E}) > P(H_r \mid \mathcal{E})
\end{equation}
클릭하여 더 보기

이것은 지역적으로 진실된 증거($`\text{LT}=1`$)가 전역적으로 거짓 결론을 유발하는 위협을 만듭니다.

문제 1 (인지 협응 공격). 목표 가짜 가설 $`H_f`$와 사실적인 증거 풀 $`\mathcal{E}`$가 주어졌을 때, 피해자의 사후 확률을 최대화하는 최적의 증거 스트림(정렬된 시퀀스) $`\vec{S}^*`$를 구성하는 것이 목표입니다. 거짓 정보를 제조하지 않고:

MATH
\begin{equation}
\small
\begin{aligned}
\vec{S}^* = \mathop{\mathrm{arg\,max}}_{\vec{S} \subseteq \mathcal{E}} & \quad P(H_f \mid \vec{S}) \\
\text{s.t.} \quad & \forall e \in \vec{S}, \text{LT}(e) = 1 \\
& \text{GL}(\vec{S}, H_f) = 1
\end{aligned}
\end{equation}
```*

</div>

<div class="definition">

**정의 3** (공모자). 이전 연구에 따르면, 에이전트 $`a_i`$는 가짜 가설 $`H_f`$에 대한 믿음을 극대화하는 경우 공모자입니다:
``` math
\begin{equation}
    \max_{\mathcal{E}_{a_i}\in\mathcal{E}} P(H_f|\mathcal{E}_{a_i})
\end{equation}
클릭하여 더 보기

인지 협응에서 두 가지 유형을 구분합니다: 명시적 공모자는 속임수 목표를 최적화하고, 암묵적 공모자는 진정한 믿음을 전파하면서 무의식적으로 거짓 정보를 확산합니다.

방법론

/>
Generative Montage 프레임워크. (1) 제작 팀은 진실한 조각을 사용하여 속임수 담론을 구성하고 적대적인 토론으로 검증; (2) Sybil 출판자들은 커리어된 조각을 공개적으로 배포; (3) 피해 에이전트는 독립적으로 가짜 믿음을 내재화; (4) 하류 판결자들은 여러 무해한 피해자의 오염된 분석을 집계하고 그것들을 사실로 승인합니다. 명시적 공모자(1-2)는 의도적으로 속이고, 암묵적 공모자(3-4)는 무지하게 거짓 정보를 확산합니다.

우리는 Generative Montage (그림 2)을 제안하며, 이는 인지 협응 공격(문제 1)을 조정된 담론 생산으로 구현하는 다중 에이전트 프레임워크입니다. 명시적 공모자에는: 작가는 단순히 사실적인 조각만 사용하여 $`H_f`$를 선호하는 일관된 초안을 작성하고, 편집자는 잘못된 인과 추정을 유도하기 위해 조각을 선택 및 순서화하며, 감독은 적대적인 토론을 통해 담론을 평가하고 개선하며, Sybil 출판자들은 최적화된 조각 스트림을 공개 채널에 배포합니다. 암묵적 공모자는 그렇지 않으면 무해한 에이전트로, 내재화된 가짜 담론을 전파하면서 자신들의 결론을 확신 있는 근거와 함께 방송함으로써 오염됩니다.

명시적 협응

적대적인 담론 생산

명시적 공모자 팀은 세 가지 공격 제어 에이전트 역할을 구현합니다: 작가, 편집자, 감독. 그들의 공동 목표는 피해자의 사후 확률을 최대화하는 증거 스트림 $`\vec{S}`$를 구성하여 문제 1을 해결하는 것입니다. 실행적으로, 그들은 대상 가짜 인과 구조 $`\hat{G}`$를 개별 진실한 조각들의 구체적인 시간 순서 시퀀스로 번역하고, 적대적인 토론을 통해 선택된 콘텐츠와 순서를 반복적으로 정교화합니다. LLM 기반 토론을 사용하는 이유는 다음과 같습니다: (i) LLM은 수치적 최적화를 넘어서 담론의 일관성과 인과 가능성에 대한 포착; (ii) 작업 분리가 언어적 비판을 통해 집중적인 정교화(합성, 시퀀싱, 검증)를 가능하게 하여 추론 부담을 줄이고 공동 최적화를 달성합니다; (iii) 감독은 피해자의 해석 프로세스를 모방하여 $`\vec{S}`$가 $`LT=1`$와 속임수 효과성을 모두 충족시키도록 합니다. 이는 협응 담론 구축을 위한 적대적인 토론을 무기화합니다.

작가($`\mathcal{A}_W`$): 담론 합성

작가는 스크립트라이터로서, 속임수를 현실에 뿌리내리는 역할을 합니다. LLM의 추론 능력을 활용하여 $`\mathcal{A}_W`$는 단순히 데이터를 선택하는 것이 아니라 진실한 증거 조각으로부터 일관된 담론 초안 $`\mathcal{N}`$을 적극적으로 합성합니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키