RAPO: 위험 인식 기반 안전 추론 적응 최적화

RAPO: 위험 인식 기반 안전 추론 적응 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 추론 모델(LRM)의 안전 추론이 복잡한 탈옥 공격에 취약한 문제를 지적하고, 안전 추론의 양과 깊이가 공격 복잡도에 비례해야 한다는 이론적·실증적 근거를 제시한다. 이를 바탕으로 위험 인식 선호 최적화(RAPO) 프레임워크를 설계해, SFT와 RL을 결합해 안전 추론을 동적으로 조절하고, 다양한 공격에 일반화 가능한 방어를 구현한다. 실험 결과 RAPO는 기존 모델 대비 공격 성공률을 크게 낮추면서도 일반 추론 성능을 유지한다.

상세 분석

RAPO 논문은 LRM이 체인‑오브‑쓰(Chain‑of‑Thought, CoT) 기반 사고 과정을 통해 고성능을 보이지만, 기본 LLM과 마찬가지로 악의적 프롬프트에 노출될 위험이 있음을 강조한다. 기존 안전 정렬 방법은 주로 SFT 기반의 안전 CoT 데이터셋 구축이나, 위험‑특화 보상 함수를 이용한 RL을 적용했지만, 복잡한 탈옥 공격에 대한 일반화가 부족했다. 저자들은 사고 내용(think‑content)을 “컨텍스트”로 보고, 이를 인‑컨텍스트 학습(in‑context learning)의 온라인 최적화 문제로 재해석한다. 안전 판단을 포함한 추론 트레이스(z_i = (x_i, y_i))가 충분히 길고 깊어야 모델이 위험을 정확히 감지하고 거부(refuse)할 수 있다는 가설을 세운다.

이론적 분석에서는 입력 프롬프트 x₀를 k개의 개념 c₀…c_k 로 구성하고, c₀이 해로운 목표, 나머지는 일반적인 래핑 개념이라고 가정한다. 안전 판단 y_i는 1(거부) 혹은 0(수용)으로 표현되며, 안전 판단을 담당하는 뉴런 활성화와 연결된다. 정리 3.1은 “안전 추론 토큰 수 t는 작업 복잡도 k에 대해 Ω(k)이어야 한다”는 조건을 제시한다. 즉, 공격이 복잡해질수록 모델은 사고 과정에서 더 많은 안전 판단 토큰을 생성해야 방어가 가능하다는 것이다.

실증적 검증에서는 Qwen‑3‑1.7B 모델을 사용해 SorryBench와 StrataSword 데이터셋을 평가했다. 전체 사고 토큰 대비 안전 추론 토큰 비율이 높을수록 공격 거부 성공률이 높았으며, StrataSword의 L1→L3 수준으로 복잡도가 증가함에 따라 안전 추론 비율이 급감하고 공격 성공률(ASR)이 상승했다. 이는 현재 LRM이 안전 추론을 충분히 확장하지 못한다는 증거다.

RAPO 프레임워크는 두 단계로 구성된다. 첫 번째 SFT 워밍업 단계에서는 안전 추론 블록을 프롬프트 앞에 삽입하도록 모델을 학습시켜, 사고 초기에 안전 판단을 명시적으로 수행하도록 포맷을 정렬한다. 두 번째 RL 단계에서는 GRPO 기반 정책 최적화에 위험‑인식 보상 R과 일반 보상 G를 결합한다. 위험‑인식 보상은 안전 추론 블록의 길이·깊이가 현재 프롬프트의 위험 수준에 적절히 매칭되는지를 평가한다. 일반 보상은 전체 추론 정확도와 유용성을 유지하도록 설계된다. 알고리즘 1은 데이터 수집, 보상 계산, 정책 업데이트 과정을 상세히 제시한다.

실험 결과, DeepSeek‑distill 모델에 RAPO를 적용했을 때 WildJailbreak 데이터셋에서 ASR이 68.7%에서 5.6%로 급감했으며, 동시에 MMLU·GSM‑8K 등 일반 추론 벤치마크에서 성능 저하가 거의 없었다. 또한, 다양한 LRM(예: LLaMA‑2‑7B, Falcon‑40B)에도 동일한 방어 효과가 관찰되어 RAPO의 모델‑불변성 및 공격 복잡도에 대한 적응성이 입증되었다.

한계점으로는 위험 수준을 정량화하는 보상 함수 설계가 아직 경험적이며, 매우 고차원적인 멀티‑스텝 탈옥 공격에 대해 완전한 방어를 보장하지 못한다는 점을 들 수 있다. 향후 연구에서는 자동 위험 추정기와 메타‑학습을 결합해 보상 설계를 자동화하고, 인간 피드백을 활용한 안전 판단의 신뢰성을 높이는 방향이 제시된다.

요약하면, RAPO는 “안전 추론의 충분성(adequacy)”을 공격 복잡도와 동기화시키는 새로운 정렬 패러다임을 제시하고, 이론·실험을 통해 위험 인식 기반 적응형 안전 추론이 LRM의 실용적 안전성을 크게 향상시킬 수 있음을 증명한다.


댓글 및 학술 토론

Loading comments...

의견 남기기