딥 강화학습 에이전트를 겨냥한 전략적 적대 공격 기법

본 논문은 딥 강화학습(Deep Reinforcement Learning, DRL) 에이전트가 실제 시스템에 적용될 때 직면할 수 있는 보안 위협을 조명하고, 두 가지 새로운 적대 공격 전술을 제안한다. 첫 번째 전술인 ‘전략적 타이밍 공격(Strategically‑Timed Attack)’은 에이전트가 특정 시점에 행동을 강하게 선호할 때만 교란을 가함으로써, 최소한의 공격 횟수로 최대한의 보상 손실을 유도한다. 이를 위해 저자들은 행동 선호도 함수 c(s_t)를 정의하고, 정책 기반(A3C)과 가치 기반(DQN) 알고리즘 각각에 맞는 형태로 구현하였다. c(s_t) 값이 사전 설정된 임계값 β를 초과하면 해당 시점에 교란을 적용하고, 그렇지 않으면 그대로 두어 공격 빈도를 제한한다. 교란 자체는 Carlini‑Wagner 최적화 기반의 적대 예제 생성 방법을 사용해, 가장 선호되는 행동을 최소 선호 행동으로 바꾸는 방향으로 설계한다. 실험 결과, 이 전략은 전체 시간 단계 대비 약 25% 정도만 공격해도 uniform attack(매 단계마다 교란)과 동일 수준의 보상 감소(30~40% 감소)를 달성했으며, 공격 탐지 위험을 크게 낮출 수 있음을 보여준다. 두 번째 전술인 ‘매혹 공격(Enchanting Attack)’은 에이전트를 현재 상태 s_t에서 지정된 목표 상태 s_g 로 유도하는 것을 목표로 한다. 이를 위해 미래 상태를 예측하는 생성 모델(예: VAE, GAN)과 목표 상태까지의 행동 시퀀스를 탐색하는 플래닝 알고리즘을 결합한다. 플래너는 모델 기반 예측을 통해 H 단계 내에 목표에 도달할 수 있는 행동 시퀀스를 생성하고, 각 단계마다 해당 행동을 선택하도록 유도하는 최소 교란 δ_t 를 Carlini‑Wagner 방식으로 만든다. 이렇게 단계별로 설계된 교란은 에이전트가 목표 상태로 이동하도록 강제한다. 실험에서는 목표 상태 도달 성공률이 70~85%에 달했으며, 특히 복잡한 게임 환경에서도 비교적 높은 효율성을 보였다. 논문은 실험을 위해 Atari 2600의 5가지 게임(Pong, Breakout, Seaquest 등)에서 DQN과 A3C 두 최신 DRL 알고리즘으로 학습된 에이전트를 대상으로 평가하였다. 전략적 타이밍 공격은 β 값을 조절해 평균 공격 횟수를 전체 시간 단계의 1/4 수준으로 제한했음에도, uniform attack과 동일한 보상 감소를 달성했다. 매혹 공격은 목표 상태를 “공이 특정 위치에 도달” 혹은 “특정 적이 화면에 나타나는 상황” 등으로 정의하고, H=10~15 단계 내에 도달하도록 설계했으며, 성공률은 70% 이상이었다. 이 연구의 주요 기여는 다음과 같다. 첫째, 강화학습의 시계열적 특성과 행동‑보상 연계성을 고려한 선택적 적대 공격 프레임워크를 최초로 제시하였다. 둘째, 전략적 타이밍 공격은 공격 비용(연산량·시간·탐지 위험)을 크게 절감하면서도 효과적인 보상 손실을 입힌다. 셋째, 매혹 공격은 플래닝과 생성 모델을 결합해 목표 지향적 교란을 가능하게 함으로써, “특정 위험 상황 유도”와 같은 새로운 위협 시나리오를 제시한다. 하지만 몇 가지 한계도 존재한다. 행동 선호도 임계값 β의 설정이 도메인에 따라 경험적으로 튜닝되어야 하며, 생성 모델의 정확도에 크게 의존한다는 점이다. 또한 방어 메커니즘(예: 적대 훈련, 관측 필터링)에 대한 실험이 부족해 실제 시스템에 적용했을 때의 견고성을 평가하기 어렵다. 향후 연구에서는 적대 훈련과의 상호작용을 정량화하고, 탐지 알고리즘을 개발하며, 더 복잡한 연속 제어 환경(예: 로봇 팔, 자율주행 시뮬레이터)에서 매혹 공격의 일반성을 검증할 필요가 있다. 또한 공격 비용을 최소화하는 최적화 기법(예: 강화학습 기반 공격 정책)과 현재의 휴리스틱을 비교·통합하는 연구도 기대된다.

딥 강화학습 에이전트를 겨냥한 전략적 적대 공격 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기