동적 목표 방어에 맞서는 적응형 공격자 전략
초록
본 논문은 이동 표적 방어(MTD) 환경에서 적응형 공격자가 제로데이 익스플로잇을 개발하는 순서를 어떻게 학습하는지를 게임 이론과 진화 알고리즘을 이용해 분석한다. 방어자는 두 가지 플랫폼 전환 정책(무작위 선택과 코드 다양성 극대화)을 사용하고, 공격자는 유한 상태 기계(FSM) 형태의 전략을 진화시킨다. 결과는 다양성 방어가 짧은 교전에서는 효과적이지만 장기 교전에서는 비효율적이며, 공격자는 최소 유사성 플랫폼에 대한 투자를 조정한다는 점을 보여준다.
상세 분석
이 연구는 이동 표적 방어(MTD)라는 동적 환경에서 공격자와 방어자의 상호작용을 정형화하기 위해 제로섬 게임 모델을 채택하였다. 방어자는 일정 시간 간격마다 활성화할 운영체제 혹은 서비스 플랫폼을 선택하는데, 첫 번째 정책은 가용 플랫폼 풀에서 균등 확률로 무작위 선택하고, 두 번째 정책은 이전에 사용된 플랫폼과의 소스코드 유사성을 최소화하도록 순차적으로 배치한다. 이러한 정책은 공격자가 익스플로잇을 개발해야 하는 목표 플랫폼의 다양성을 인위적으로 조절한다는 점에서 의미가 있다.
공격자는 “플랫폼‑시간” 매트릭스 상에서 제로데이 익스플로잇을 만들기 위해 자원을 할당하는 순서를 설계한다. 이를 구현하기 위해 유한 상태 기계(FSM) 형태의 전략을 사용했으며, 각 상태는 현재 선택된 플랫폼과 남은 자원량을 인코딩한다. FSM은 진화 알고리즘(선택·돌연변이·교차)을 통해 여러 세대에 걸쳐 최적화된다. 진화 과정에서 적합도는 공격자가 실제 시뮬레이션 경기에서 얻은 성공 횟수와 직접 연관된다.
시뮬레이션 결과는 두 가지 방어 정책에 대해 상이한 적응 패턴을 드러낸다. 무작위 정책 하에서는 공격자가 가장 흔히 등장하는 플랫폼에 집중 투자하고, 상대적으로 드물게 나타나는 플랫폼에 대한 투자 비중을 최소화한다. 반면, 다양성‑극대화 정책에서는 가장 낮은 코드 유사성을 가진 플랫폼이 가장 적게 등장하지만, 공격자는 장기적으로 그 플랫폼에 대한 익스플로잇을 개발하는 것이 전체 성공률을 높인다는 것을 학습한다. 이는 공격자가 “희소성”을 이용해 방어자의 예측을 무력화하려는 전략적 전환을 의미한다.
또한, 교전 기간에 따른 방어 효율성 차이가 관찰되었다. 짧은 교전(예: 50 라운드)에서는 다양성 방어가 공격자의 학습 시간을 충분히 제한해 성공률을 크게 낮추지만, 교전이 길어질수록(예: 200 라운드) 공격자는 충분히 진화된 FSM을 통해 희소 플랫폼에 대한 익스플로잇을 확보하고, 결국 전체 성공률을 무작위 방어와 동등하거나 그 이상으로 끌어올린다. 이는 MTD 방어가 단순히 플랫폼 다양성만을 추구해서는 안 되며, 교전 지속 시간과 공격자 학습 능력을 고려한 정책 설계가 필요함을 시사한다.
결론적으로, 본 논문은 공격자‑방어자 상호작용을 동적 게임으로 모델링하고, 진화적 FSM을 통해 공격자의 적응 메커니즘을 정량적으로 분석함으로써 MTD 설계 시 고려해야 할 핵심 변수(플랫폼 유사성, 교전 기간, 자원 할당 전략)를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기