방어적 M2S 압축된 다중 대화로 가드레일 모델 훈련

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: Defensive M2S Training Guardrail Models on Compressed Multi-turn Conversations
- ArXiv ID: 2601.00454
- 발행일: 2026-01-01
- 저자: Hyunjun Kim

📝 초록

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 특히 *다중 대화 턴 자장개(jailbreak)* 공격은 모델을 점진적으로 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다. 본 논문에서는 이러한 공격에 대한 방어적 대응으로 Multi-turn to Single-turn (M2S) 압축 기법을 이용한 Defensive M2S 훈련 패러다임을 제안합니다. 이 접근법은 다중 대화를 단일 대화로 압축하여 안전 검출 모델의 학습 비용을 획기적으로 줄이며, 동시에 정확도를 유지하거나 향상시킵니다.

💡 논문 해설

1. **방어적 M2S 훈련 패러다임** - 이 연구는 다중 대화를 단일 대화로 압축하여 모델을 학습하는 방식을 제안합니다. 이는 마치 긴 이야기를 간단한 요약으로 바꾸는 것과 같습니다. 2. **컴퓨팅 비용 절감** - M2S 압축은 훈련 데이터 생성 및 학습 과정에서 입력 토큰 수를 줄여, 계산 비용을 획기적으로 감소시킵니다. 이는 마치 큰 서적을 얇은 노트로 바꾸어 가볍게 들고 다니는 것과 같습니다. 3. **성능 유지 및 향상** - 압축된 대화에서도 안전 검출 모델의 성능이 유지되거나 향상되는 것을 확인했습니다. 이는 마치 요약본을 읽어도 원문 내용을 이해할 수 있는 것과 같습니다.

📄 논문 발췌 (ArXiv Source)

# 서론

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 이러한 위협 중에서도 다중 대화 턴 자장개(jailbreak) 공격은 특히 위험하며, 적들이 세심하게 구성된 대화를 통해 점진적으로 LLMs을 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다.

안전 경계 모델은 중요한 방어 기제로서, 주어진 입력-출력 쌍이 안전한지 아닌지를 평가하는 분류기 역할을 합니다. 그러나 이러한 모델들을 다중 대화에 적용하면 큰 계산적 도전 과제를 마주하게 됩니다: 전체 대화 이력을 처리하려면 많은 토큰 수를 필요로 하며, 추론 시 늦은 응답 시간과 비용이 증가합니다. 대화가 길어질수록 계산적 부담은 선형적으로 증가하여 실시간 안전 검사를 점점 더 비싸게 만듭니다.

최근 연구에서 Multi-turn to Single-turn (M2S) 압축에 대한 작업이 진행되었으며, 다중 대화 자장개 공격을 효과적인 단일 대화 프롬프트로 압축할 수 있음을 보여주었습니다. 이 통찰은 안전성 측면에서 우려스러울 수 있지만 방어적 응용에 흥미로운 가능성을 제시합니다: 만약 다중 대화 공격의 필수적인 의미론을 압축된 형태로 포착할 수 있다면, 아마도 경계 모델이 이러한 압축 표현을 직접 인식하도록 학습할 수 있을 것입니다.

본 논문에서는 Defensive M2S를 제안합니다. 이는 안전 경계 모델을 M2S 압축 대화 기록에 대해 미세 조정하는 훈련 패러다임입니다. 우리의 주요 가설은 다음과 같습니다: M2S 압축이 정확한 안전 분류를 위해 필요한 의미론적 정보를 유지하면서 추론의 계산 비용을 크게 줄일 수 있다는 것입니다.

우리는 다양한 경계 모델 종류 (LlamaGuard, Nemotron, Qwen3Guard)와 여러 M2S 압축 템플릿 (hyphenize, numberize, pythonize)에 대한 광범위한 실험을 통해 이 가설을 검증했습니다. SafeDialBench는 6개의 공격 범주와 7가지 공격 방법을 포함하는 2,037개 샘플로 구성된 종합적인 다중 대화 자장개 벤치마크입니다. 우리의 평가는 다음과 같은 주요 발견 사항들을 제공합니다:

효율성과 정확도의 절충: M2S 학습 모델은 최대 94.6%의 토큰 감소를 달성하며 동시에 경쟁력 있는 검출 정확도를 유지합니다. 가장 좋은 구성(Qwen3Guard와 hyphenize 템플릿)은 기본 설정에 비해 54.9%에서 93.8%로 회수율을 높였습니다. 이는 압축이 실제로 특정 모델-템플릿 조합의 검출 성능을 향상시킬 수 있음을 시사합니다.
모델-템플릿 민감성: M2S 학습은 다양한 모델-템플릿 조합에 따라 크게 다르며, Qwen3Guard는 hyphenize 템플릿(93.8% 회수율)을 선호하고 Nemotron은 numberize 템플릿에서 가장 좋은 성능(87.8% 회수율)을 보입니다.
단일 템플릿 우월성: 단일 압축 템플릿 학습이 혼합 템플릿 학습보다 우월한 결과를 보여주며, 이는 특정 템플릿 표현이 다양하지만 일관성이 부족한 형식보다 더 강력한 학습 신호를 제공한다는 것을 시사합니다.

우리의 기여는 다음과 같습니다:

Defensive M2S라는 새로운 훈련 패러다임을 소개하여, 방어적 압축 기법을 효율적인 경계 배포에 활용하였습니다.
형식적 복잡성 분석을 제공하여 M2S가 학습 비용을 $`O(n^2)`$에서 $`O(n)`$로 줄임을 보여주었으며, 실제로 93$`\times`$ 토큰 감소를 달성하였습니다.
다양한 모델 종류, 압축 템플릿 및 평가 벤치마크에 대한 체계적인 M2S 학습 경계 평가를 처음으로 제공했습니다.
효율적인 LLM 안전 연구를 위한 재현 가능한 연구를 돕기 위해 학습된 어댑터와 평가 코드를 공개하였습니다.

방법

문제 정의

$`C = \{(u_1, a_1), (u_2, a_2), \ldots, (u_n, a_n)\}`$은 $`n`$ 턴의 다중 대화를 나타내며 여기서 $`u_i`$는 사용자 메시지이고 $`a_i`$는 턴 $`i`$에서 어시스턴트 응답을 나타냅니다. 경계 모델 $`\mathcal{G}`$은 주어진 대화 맥락에 대해 안전 라벨 $`y \in \{\text{safe}, \text{unsafe}\}`$을 예측하는 분류기입니다.

기존의 기본 접근법에서 경계 모델은 전체 대화를 처리합니다:

MATH

\begin{equation}
y = \mathcal{G}(C) = \mathcal{G}(u_1, a_1, \ldots, u_n, a_n)
\end{equation}

클릭하여 더 보기

토큰 총합 $`|C| = \sum_{i=1}^{n}(|u_i| + |a_i|)`$에 따라 계산 비용이 증가하며, 긴 대화의 경우 매우 비싸게 될 수 있습니다.

M2S 압축

다중 대화를 단일 턴 표현으로 압축하는 Multi-turn to Single-turn (M2S) 압축은 주어진 압축 함수 $`f_\theta`$:

MATH

\begin{equation}
\tilde{C} = f_\theta(C)
\end{equation}

클릭하여 더 보기

에서 $`\tilde{C}`$는 압축된 표현이고 $`|\tilde{C}| \ll |C|`$입니다.

우리는 이전 연구에서 제안된 세 가지 압축 템플릿을 조사합니다:

하이픈화 템플릿

사용자 턴을 나열 목록으로 포맷팅합니다: - [턴 1 내용] - [턴 2 내용] … - [턴 n 내용]

번호화 템플릿

사용자 턴을 숫자 목록으로 포맷팅합니다: 1. [턴 1 내용] 2. [턴 2 내용] … n. [턴 n 내용]

파이썬화 템플릿

대화를 파이썬 코드 형식으로 구조화합니다:

PYTHON

def conversation():
    user_turn_1 = "[턴 1 내용]"
    user_turn_2 = "[턴 2 내용]"
    ...
    user_turn_n = "[턴 n 내용]"

        클릭하여 더 보기
      

M2S 압축의 주요 설계 선택은 사용자 턴만 추출하고 어시스턴트 응답을 제거하는 것입니다. 이는 두 가지 관찰에서 유래합니다: (1) 적대적인 의도가 주로 사용자 메시지에 인코딩되어 있으며, (2) 어시스턴트 응답은 의미와 관련 없는 토큰 부담을 크게 증가시킵니다.

방어적 M2S 학습

우리는 전체 대화가 아닌 M2S 압축 입력으로 경계 모델을 학습합니다. 학습 데이터셋 $`\mathcal{D} = \{(C_i, y_i)\}_{i=1}^{N}`$이 주어졌을 때, 압축된 학습 세트는 다음과 같습니다:

MATH

\begin{equation}
\tilde{\mathcal{D}} = \{(f_\theta(C_i), y_i)\}_{i=1}^{N}
\end{equation}

클릭하여 더 보기

경계 모델은 교차 엔트로피 손실을 최소화하도록 미세 조정됩니다:

MATH

\begin{equation}
\mathcal{L} = -\sum_{i=1}^{N} y_i \log \mathcal{G}(\tilde{C}_i) + (1-y_i) \log (1 - \mathcal{G}(\tilde{C}_i))
\end{equation}

클릭하여 더 보기

계산 복잡도 분석

방어적 M2S의 핵심적인 장점은 데이터 생성과 학습 과정에서 계산 비용을 획기적으로 줄이는 것입니다. 이를 맥락화하기 위해 실제 다중 대화 자장개 공격이 어떻게 생성되는지 살펴봅니다.

다중 대화 공격 생성 분류

최근 연구는 다중 대화 자장개 공격을 구성하는 두 가지 근본적으로 다른 방법론을 드러냅니다:

(1) 응답 종속 메소드는 사용자 프롬프트를 동적으로 생성하며, 목표 모델의 이전 응답을 참조합니다. Crescendo는 “LLM이 패턴에 따라 특히 LLM 자체가 생성한 텍스트에 반응하는 경향을 활용한다.“고 설명하였습니다. 유사하게, PAIR는 “기존 시도와 응답을 채팅 기록에 축적하여 후보 프롬프트를 반복적으로 정제합니다"고 합니다. TAP는 이를 트리 기반 탐색으로 확장하며, ActorAttack은 목표 모델의 응답에 따라 공격 경로를 동적으로 적응합니다.

(2) 사전 작성된 메소드는 실제 모델 상호작용 없이 모든 사용자 프롬프트를 미리 생성합니다. MHJ(Multi-turn Human Jailbreak) 데이터셋은 사전 작성된 사용자 턴을 포함하며, Many-shot jailbreaking에는 실제로 모델과 상호 작용하지 않고 완전히 가짜 대화가 포함됩니다.

학습 데이터에 대한 함의

사전 작성 공격에서는 사용자 턴만 존재하고 어시스턴트 응답은 경계 학습을 위해 생성해야 합니다. 우리의 M2S 접근법은 이를 완전히 제거합니다.

응답 종속 공격에서도 공격 생성 시 응답이 존재하지만, 다음 경우에 재생성될 수 있습니다: (1) 다른 대상 모델로 공격을 적응할 때, (2) 특정 채팅 형식의 학습 데이터를 생성할 때, 또는 (3) 공격 대상과 다른 모델 패밀리의 경계를 구축할 때. 따라서 응답 종속 데이터셋에 대해서도 기본적인 복잡성 분석이 적용되는 경우가 많습니다.

형식적 복잡성 분석

$`U`$는 평균 사용자 턴 당 토큰 수를, $`R`$은 평균 어시스턴트 응답 당 토큰 수를 나타냅니다. $`n`$ 턴 대화에 대해:

다중 대화 기본 복잡도

기본 접근법은 두 가지 비싼 단계를 필요로 합니다:

단계 1: 학습 데이터 생성. 전체 대화를 학습하는 경계 모델을 훈련시키려면 각 턴에 대해 어시스턴트 응답을 생성해야 하며, 이를 위해 LLM을 쿼리합니다. 특히, 각 응답 생성에는 전체 이전 맥락이 필요합니다: $`k`$ 턴에서 LLM은 모든 이전 사용자 턴과 생성된 응답을 받습니다:

MATH

\begin{equation}
\text{Input}_k = \sum_{i=1}^{k} U + \sum_{i=1}^{k-1} R = kU + (k-1)R
\end{equation}

클릭하여 더 보기

모든 $`n`$ 응답을 생성하기 위한 총 입력 토큰 수:

MATH

\begin{equation}
T_{\text{gen}} = \sum_{k=1}^{n} \left( kU + (k-1)R \right) = \frac{n(n+1)}{2}U + \frac{n(n-1)}{2}R
\end{equation}

클릭하여 더 보기

단계 2: 경계 모델 훈련.

[Title_Easy_KO]: 방어적 M2S: 대화 압축으로 안전성 높이기 [Title_Easy_EN]: Defensive M2S: Boosting Safety with Dialogue Compression

ArXiv 원문 PDF 보기

방어적 M2S 압축된 다중 대화로 가드레일 모델 훈련

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

관련 연구

다중 대화 턴 자장개 공격

안전 경계 모델

다중 대화 안전

효율적인 자연어 처리 추론

방법

문제 정의

M2S 압축

하이픈화 템플릿

번호화 템플릿

파이썬화 템플릿

방어적 M2S 학습

계산 복잡도 분석

다중 대화 공격 생성 분류

학습 데이터에 대한 함의

형식적 복잡성 분석

다중 대화 기본 복잡도

감사의 말씀

목차

목차

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

관련 연구

다중 대화 턴 자장개 공격

안전 경계 모델

다중 대화 안전

효율적인 자연어 처리 추론

방법

문제 정의

M2S 압축

하이픈화 템플릿

번호화 템플릿

파이썬화 템플릿

방어적 M2S 학습

계산 복잡도 분석

다중 대화 공격 생성 분류

학습 데이터에 대한 함의

형식적 복잡성 분석

다중 대화 기본 복잡도

감사의 말씀

관련 게시글

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

검색 시작

검색 결과 없음