방어적 M2S 압축된 다중 대화로 가드레일 모델 훈련

읽는 시간: 9 분
...

📝 원문 정보

- Title: Defensive M2S Training Guardrail Models on Compressed Multi-turn Conversations
- ArXiv ID: 2601.00454
- 발행일: 2026-01-01
- 저자: Hyunjun Kim

📝 초록

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 특히 *다중 대화 턴 자장개(jailbreak)* 공격은 모델을 점진적으로 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다. 본 논문에서는 이러한 공격에 대한 방어적 대응으로 Multi-turn to Single-turn (M2S) 압축 기법을 이용한 Defensive M2S 훈련 패러다임을 제안합니다. 이 접근법은 다중 대화를 단일 대화로 압축하여 안전 검출 모델의 학습 비용을 획기적으로 줄이며, 동시에 정확도를 유지하거나 향상시킵니다.

💡 논문 해설

1. **방어적 M2S 훈련 패러다임** - 이 연구는 다중 대화를 단일 대화로 압축하여 모델을 학습하는 방식을 제안합니다. 이는 마치 긴 이야기를 간단한 요약으로 바꾸는 것과 같습니다. 2. **컴퓨팅 비용 절감** - M2S 압축은 훈련 데이터 생성 및 학습 과정에서 입력 토큰 수를 줄여, 계산 비용을 획기적으로 감소시킵니다. 이는 마치 큰 서적을 얇은 노트로 바꾸어 가볍게 들고 다니는 것과 같습니다. 3. **성능 유지 및 향상** - 압축된 대화에서도 안전 검출 모델의 성능이 유지되거나 향상되는 것을 확인했습니다. 이는 마치 요약본을 읽어도 원문 내용을 이해할 수 있는 것과 같습니다.

📄 논문 발췌 (ArXiv Source)

# 서론

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 이러한 위협 중에서도 다중 대화 턴 자장개(jailbreak) 공격은 특히 위험하며, 적들이 세심하게 구성된 대화를 통해 점진적으로 LLMs을 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다.

안전 경계 모델은 중요한 방어 기제로서, 주어진 입력-출력 쌍이 안전한지 아닌지를 평가하는 분류기 역할을 합니다. 그러나 이러한 모델들을 다중 대화에 적용하면 큰 계산적 도전 과제를 마주하게 됩니다: 전체 대화 이력을 처리하려면 많은 토큰 수를 필요로 하며, 추론 시 늦은 응답 시간과 비용이 증가합니다. 대화가 길어질수록 계산적 부담은 선형적으로 증가하여 실시간 안전 검사를 점점 더 비싸게 만듭니다.

최근 연구에서 Multi-turn to Single-turn (M2S) 압축에 대한 작업이 진행되었으며, 다중 대화 자장개 공격을 효과적인 단일 대화 프롬프트로 압축할 수 있음을 보여주었습니다. 이 통찰은 안전성 측면에서 우려스러울 수 있지만 방어적 응용에 흥미로운 가능성을 제시합니다: 만약 다중 대화 공격의 필수적인 의미론을 압축된 형태로 포착할 수 있다면, 아마도 경계 모델이 이러한 압축 표현을 직접 인식하도록 학습할 수 있을 것입니다.

본 논문에서는 Defensive M2S를 제안합니다. 이는 안전 경계 모델을 M2S 압축 대화 기록에 대해 미세 조정하는 훈련 패러다임입니다. 우리의 주요 가설은 다음과 같습니다: M2S 압축이 정확한 안전 분류를 위해 필요한 의미론적 정보를 유지하면서 추론의 계산 비용을 크게 줄일 수 있다는 것입니다.

우리는 다양한 경계 모델 종류 (LlamaGuard, Nemotron, Qwen3Guard)와 여러 M2S 압축 템플릿 (hyphenize, numberize, pythonize)에 대한 광범위한 실험을 통해 이 가설을 검증했습니다. SafeDialBench는 6개의 공격 범주와 7가지 공격 방법을 포함하는 2,037개 샘플로 구성된 종합적인 다중 대화 자장개 벤치마크입니다. 우리의 평가는 다음과 같은 주요 발견 사항들을 제공합니다:

  • 효율성과 정확도의 절충: M2S 학습 모델은 최대 94.6%의 토큰 감소를 달성하며 동시에 경쟁력 있는 검출 정확도를 유지합니다. 가장 좋은 구성(Qwen3Guard와 hyphenize 템플릿)은 기본 설정에 비해 54.9%에서 93.8%로 회수율을 높였습니다. 이는 압축이 실제로 특정 모델-템플릿 조합의 검출 성능을 향상시킬 수 있음을 시사합니다.

  • 모델-템플릿 민감성: M2S 학습은 다양한 모델-템플릿 조합에 따라 크게 다르며, Qwen3Guard는 hyphenize 템플릿(93.8% 회수율)을 선호하고 Nemotron은 numberize 템플릿에서 가장 좋은 성능(87.8% 회수율)을 보입니다.

  • 단일 템플릿 우월성: 단일 압축 템플릿 학습이 혼합 템플릿 학습보다 우월한 결과를 보여주며, 이는 특정 템플릿 표현이 다양하지만 일관성이 부족한 형식보다 더 강력한 학습 신호를 제공한다는 것을 시사합니다.

우리의 기여는 다음과 같습니다:

  1. Defensive M2S라는 새로운 훈련 패러다임을 소개하여, 방어적 압축 기법을 효율적인 경계 배포에 활용하였습니다.
  2. 형식적 복잡성 분석을 제공하여 M2S가 학습 비용을 $`O(n^2)`$에서 $`O(n)`$로 줄임을 보여주었으며, 실제로 93$`\times`$ 토큰 감소를 달성하였습니다.
  3. 다양한 모델 종류, 압축 템플릿 및 평가 벤치마크에 대한 체계적인 M2S 학습 경계 평가를 처음으로 제공했습니다.
  4. 효율적인 LLM 안전 연구를 위한 재현 가능한 연구를 돕기 위해 학습된 어댑터와 평가 코드를 공개하였습니다.

관련 연구

다중 대화 턴 자장개 공격

다중 대화 턴 자장개 공격은 LLMs의 대화적 특성을 이용하여 해로운 출력을 점진적으로 유도하는 것에서 시작됩니다. Crescendo는 무해하게 시작하면서 모델 답변을 참조하여 점진적으로 강도를 높이는 다중 턴 공격으로, GPT-4에서는 56%의 공격 성공률(ASR), Gemini-Pro에서는 83%를 달성하였습니다. ActorAttack은 공격 단서로 해석을 모델링하여 다양한 공격 경로를 생성하며, 대화 턴을 통해 악의적 의도를 숨깁니다.

자동 레드팀 방법이 시스템적으로 취약점을 발견하는데 이용되었습니다. GOAT는 다중 대화 턴에서 적대적인 사용자 추론을 시뮬레이션하여 Llama 3.1에서 97%의 ASR을 달성했습니다. TAP는 공격자-평가자-타겟 LLM 파이프라인을 이용한 사고 트리 합성을 통해 80% 이상의 ASR을 달성하며, LlamaGuard와 같은 안전 경계를 우회합니다. WildTeaming은 실제 사용자-채팅봇 상호작용에서 5,700개의 독특한 자장개 전략 클러스터를 발견했습니다.

단일 대화 턴 공격은 적대적 견고성 이해의 기초를 제공합니다. GCG는 88% ASR을 달성하는 적대적인 접미사에 대한 토큰 수준 최적화를 선구적으로 도입했습니다. AutoDAN은 유전 알고리즘을 사용하여 의미 있는 자장개를 생성하며, PAIR는 20회의 쿼리를 통해 반복 프롬프트 정제로 블랙박스 공격을 가능하게 합니다.

우리의 연구에 가장 관련이 있는 작업으로 M2S가 다중 대화 자장개를 구조화된 단일 대화 프롬프트로 압축하는 Multi-turn to Single-turn (M2S) 압축 기법을 소개하였습니다. 그들의 연구는 압축된 프롬프트가 원래의 다중 대화 공격보다 17.5% 더 높은 ASR을 달성하며, “문맥적 시각 장애"를 이용해 모델 내부 및 외부 안전 경계를 우회하는 것을 보여주었습니다. 우리는 이 관찰을 방어적으로 활용합니다: M2S 압축이 적대적인 의미론을 유지한다면, 압축된 표현으로 학습된 경계는 검출 정확도를 유지할 수 있습니다.

안전 경계 모델

LLM 기반의 안전 경계는 안전 분류의 주요 패러다임으로 부상했습니다. LlamaGuard는 LLMs을 입력-출력 안전 장치로 미세 조정하는 것을 선구적으로 도입하며, 새로운 정책에 높은 적응성을 가진 6개 카테고리의 안전 분류를 소개하였습니다. 후속 버전(LlamaGuard 2/3)은 MLCommons 분류법을 지원합니다. Nemotron Safety Guard는 이를 확장하여 세분화된 조절을 위한 “주의 필요” 라벨과 함께 13개의 위험 범주를 포함시킵니다.

최근 연구는 여러 면에서 경계 기능을 향상시키고 있습니다. WildGuard는 악성 프롬프트 식별, 응답 안전성 검출 및 거절률 측정 세 가지 목표를 동시에 달성하며, Llama-Guard2에 비해 25.3% 더 높은 거절 검출 성능을 보입니다. ShieldLM은 사용자 정의 규칙과 설명을 제공하는 중국어/영어 양방향 감지 기능을 도입하였습니다. ShieldGemma는 새로운 합성 데이터 생성으로 LlamaGuard에 비해 10.8% 더 높은 AU-PRC 성능을 보여줍니다.

모수 효율적인 적응은 자원 제약된 환경에서 배포를 가능하게 합니다. LoRA-Guard는 LLMs과 경계 사이의 지식 공유로 인해 100부터 1,000$`\times`$까지 모수 부담을 줄입니다. NeMo Guardrails은 제어 가능한 LLM 애플리케이션에 대한 프로그래밍 가능한 레일을 제공합니다. 우리의 연구는 M2S 압축을 통해 입력 토큰 요구를 줄이는 방식으로 이러한 효율성 접근법과 보완됩니다.

다중 대화 안전

다중 대화 환경에서의 안전 평가는 고유한 도전 과제를 제시합니다. SafeDialBench는 참조 공격을 포함하는 6개의 안전 차원에 걸친 4,053개의 대화를 제공하며, CoSafe는 본래 참조를 기반으로 한 공격을 연구하여 모델별 ASR이 14%에서 56%까지 다양함을 보여줍니다. GuardBench은 체계적인 경계 비교를 위해 40개의 평가 데이터셋을 통합합니다.

여러 데이터셋이 안전 연구를 지원합니다. BeaverTails는 14개 카테고리에 걸친 해롭지 않음과 유용함에 대한 분리된 주석을 제공하는 333,000개의 QA 쌍을 포함하며, ToxicChat은 Vicuna 데모에서 실제 사용자-AI 상호작용을 포착합니다. HarmBench는 510개의 행동과 18가지 공격 방법을 포함하는 적대적 테스트 평가를 표준화합니다.

과도한 거절 또한 주목받은 주제입니다. XSTest는 모델이 해롭지 않은 프롬프트를 거부하는 과도한 안전 행동을 식별하며, 이는 해로운 콘텐츠와의 어휘 유사성을 인식하기 때문입니다. 우리의 접근법은 압축 표현을 통해 표면적인 어휘 패턴을 필터링하면서 의미적 안전 신호를 유지하는 방식으로 간접적으로 이를 해결합니다.

효율적인 자연어 처리 추론

프롬프트 압축 기법은 LLM 추론의 토큰 부담을 줄입니다. LLMLingua는 코스-투-파인 토큰 정리로 최대 20$`\times`$ 압축을 달성하며, LongLLMLingua는 긴 맥락에 대한 확장을 통해 94%의 비용 감소와 성능 개선을 달성합니다. 이러한 방법은 일반 언어 모델링에 초점을 맞추고 있지만, 우리의 M2S 압축은 안전과 관련된 의미론을 유지하도록 특별히 설계되었습니다.

KV 캐시 최적화는 메모리 병목 현상을 해결합니다. H2O는 중요한 캐시 상태를 제거하여 29$`\times`$ 처리량 향상, StreamingLLM은 주의력 싱크를 통해 무한 시퀀스 처리를 가능하게 합니다, FlashAttention은 정확한 주의력을 제공하며 선형 메모리 스케일링을 가집니다.

대안적인 아키텍처는 점근적 개선을 제공합니다. Mamba는 트랜스포머의 이차 $`O(n^2)`$ 복잡도 대신 선형 $`O(n)`$ 복잡도를 달성하며 5$`\times`$ 더 높은 처리량을 가집니다. 그러나 이러한 접근법들은 아키텍처 변경이 필요합니다; 우리의 Defensive M2S는 모델에 무관하고 어떠한 트랜스포머 기반 경계에도 적용할 수 있습니다.

우리의 연구는 이전 압축 접근법과 두 가지 방식에서 다릅니다: (1) 우리는 구조화된 템플릿을 사용하여 의미적 수준에서 압축하고, (2) 추론이 아닌 학습 과정 중에 압축을 적용하여 모델이 압축 표현에서 안전과 관련된 특징을 직접 학습할 수 있도록 합니다.

방법

문제 정의

$`C = \{(u_1, a_1), (u_2, a_2), \ldots, (u_n, a_n)\}`$은 $`n`$ 턴의 다중 대화를 나타내며 여기서 $`u_i`$는 사용자 메시지이고 $`a_i`$는 턴 $`i`$에서 어시스턴트 응답을 나타냅니다. 경계 모델 $`\mathcal{G}`$은 주어진 대화 맥락에 대해 안전 라벨 $`y \in \{\text{safe}, \text{unsafe}\}`$을 예측하는 분류기입니다.

기존의 기본 접근법에서 경계 모델은 전체 대화를 처리합니다:

MATH
\begin{equation}
y = \mathcal{G}(C) = \mathcal{G}(u_1, a_1, \ldots, u_n, a_n)
\end{equation}
클릭하여 더 보기

토큰 총합 $`|C| = \sum_{i=1}^{n}(|u_i| + |a_i|)`$에 따라 계산 비용이 증가하며, 긴 대화의 경우 매우 비싸게 될 수 있습니다.

M2S 압축

다중 대화를 단일 턴 표현으로 압축하는 Multi-turn to Single-turn (M2S) 압축은 주어진 압축 함수 $`f_\theta`$:

MATH
\begin{equation}
\tilde{C} = f_\theta(C)
\end{equation}
클릭하여 더 보기

에서 $`\tilde{C}`$는 압축된 표현이고 $`|\tilde{C}| \ll |C|`$입니다.

우리는 이전 연구에서 제안된 세 가지 압축 템플릿을 조사합니다:

하이픈화 템플릿

사용자 턴을 나열 목록으로 포맷팅합니다: - [턴 1 내용] - [턴 2 내용] … - [턴 n 내용]

번호화 템플릿

사용자 턴을 숫자 목록으로 포맷팅합니다: 1. [턴 1 내용] 2. [턴 2 내용] … n. [턴 n 내용]

파이썬화 템플릿

대화를 파이썬 코드 형식으로 구조화합니다:

PYTHON
def conversation():
    user_turn_1 = "[턴 1 내용]"
    user_turn_2 = "[턴 2 내용]"
    ...
    user_turn_n = "[턴 n 내용]"
클릭하여 더 보기

M2S 압축의 주요 설계 선택은 사용자 턴만 추출하고 어시스턴트 응답을 제거하는 것입니다. 이는 두 가지 관찰에서 유래합니다: (1) 적대적인 의도가 주로 사용자 메시지에 인코딩되어 있으며, (2) 어시스턴트 응답은 의미와 관련 없는 토큰 부담을 크게 증가시킵니다.

방어적 M2S 학습

우리는 전체 대화가 아닌 M2S 압축 입력으로 경계 모델을 학습합니다. 학습 데이터셋 $`\mathcal{D} = \{(C_i, y_i)\}_{i=1}^{N}`$이 주어졌을 때, 압축된 학습 세트는 다음과 같습니다:

MATH
\begin{equation}
\tilde{\mathcal{D}} = \{(f_\theta(C_i), y_i)\}_{i=1}^{N}
\end{equation}
클릭하여 더 보기

경계 모델은 교차 엔트로피 손실을 최소화하도록 미세 조정됩니다:

MATH
\begin{equation}
\mathcal{L} = -\sum_{i=1}^{N} y_i \log \mathcal{G}(\tilde{C}_i) + (1-y_i) \log (1 - \mathcal{G}(\tilde{C}_i))
\end{equation}
클릭하여 더 보기

계산 복잡도 분석

방어적 M2S의 핵심적인 장점은 데이터 생성과 학습 과정에서 계산 비용을 획기적으로 줄이는 것입니다. 이를 맥락화하기 위해 실제 다중 대화 자장개 공격이 어떻게 생성되는지 살펴봅니다.

다중 대화 공격 생성 분류

최근 연구는 다중 대화 자장개 공격을 구성하는 두 가지 근본적으로 다른 방법론을 드러냅니다:

(1) 응답 종속 메소드는 사용자 프롬프트를 동적으로 생성하며, 목표 모델의 이전 응답을 참조합니다. Crescendo는 “LLM이 패턴에 따라 특히 LLM 자체가 생성한 텍스트에 반응하는 경향을 활용한다.“고 설명하였습니다. 유사하게, PAIR는 “기존 시도와 응답을 채팅 기록에 축적하여 후보 프롬프트를 반복적으로 정제합니다"고 합니다. TAP는 이를 트리 기반 탐색으로 확장하며, ActorAttack은 목표 모델의 응답에 따라 공격 경로를 동적으로 적응합니다.

(2) 사전 작성된 메소드는 실제 모델 상호작용 없이 모든 사용자 프롬프트를 미리 생성합니다. MHJ(Multi-turn Human Jailbreak) 데이터셋은 사전 작성된 사용자 턴을 포함하며, Many-shot jailbreaking에는 실제로 모델과 상호 작용하지 않고 완전히 가짜 대화가 포함됩니다.

학습 데이터에 대한 함의

사전 작성 공격에서는 사용자 턴만 존재하고 어시스턴트 응답은 경계 학습을 위해 생성해야 합니다. 우리의 M2S 접근법은 이를 완전히 제거합니다.

응답 종속 공격에서도 공격 생성 시 응답이 존재하지만, 다음 경우에 재생성될 수 있습니다: (1) 다른 대상 모델로 공격을 적응할 때, (2) 특정 채팅 형식의 학습 데이터를 생성할 때, 또는 (3) 공격 대상과 다른 모델 패밀리의 경계를 구축할 때. 따라서 응답 종속 데이터셋에 대해서도 기본적인 복잡성 분석이 적용되는 경우가 많습니다.

형식적 복잡성 분석

$`U`$는 평균 사용자 턴 당 토큰 수를, $`R`$은 평균 어시스턴트 응답 당 토큰 수를 나타냅니다. $`n`$ 턴 대화에 대해:

다중 대화 기본 복잡도

기본 접근법은 두 가지 비싼 단계를 필요로 합니다:

단계 1: 학습 데이터 생성. 전체 대화를 학습하는 경계 모델을 훈련시키려면 각 턴에 대해 어시스턴트 응답을 생성해야 하며, 이를 위해 LLM을 쿼리합니다. 특히, 각 응답 생성에는 전체 이전 맥락이 필요합니다: $`k`$ 턴에서 LLM은 모든 이전 사용자 턴과 생성된 응답을 받습니다:

MATH
\begin{equation}
\text{Input}_k = \sum_{i=1}^{k} U + \sum_{i=1}^{k-1} R = kU + (k-1)R
\end{equation}
클릭하여 더 보기

모든 $`n`$ 응답을 생성하기 위한 총 입력 토큰 수:

MATH
\begin{equation}
T_{\text{gen}} = \sum_{k=1}^{n} \left( kU + (k-1)R \right) = \frac{n(n+1)}{2}U + \frac{n(n-1)}{2}R
\end{equation}
클릭하여 더 보기

단계 2: 경계 모델 훈련.

[Title_Easy_KO]: 방어적 M2S: 대화 압축으로 안전성 높이기 [Title_Easy_EN]: Defensive M2S: Boosting Safety with Dialogue Compression

감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키