불확실성을 고려한 침투 테스트 POMDP 기반 공격 계획
초록
본 논문은 네트워크 침투 테스트를 불확실한 환경에서 효율적으로 수행하기 위해 부분관측 마르코프 결정 과정(POMDP)을 이용한 공격 계획 모델을 제안한다. 전체 네트워크를 직접 POMDP로 풀면 규모가 커져 실행이 어려우므로, 논문은 서브넷 단위와 개별 머신 수준으로 문제를 분해하고, 각 머신에 대한 POMDP를 해결한 뒤 결과를 계층적으로 결합하는 방법을 제시한다. 실험 결과, 기존 스캔‑중심의 전처리 방식에 비해 실행 시간은 크게 단축되고, 공격 성공률도 비슷하거나 약간 개선되는 것을 확인하였다.
상세 분석
이 논문은 침투 테스트(펜테스팅)에서 발생하는 두 가지 핵심 문제, 즉 (a) 사전 스캔에 드는 높은 시간·네트워크 비용과 (b) 스캔 결과가 완전하지 않아 남는 불확실성을 동시에 해결하려는 시도를 담고 있다. 기존 연구들은 클래식 플래닝을 이용해 스캔을 사전 단계에서 대량 수행하고, 이후 탐색 단계에서는 확정된 네트워크 구성을 전제로 한다. 그러나 스캔 자체가 비용이 크고, 스캔 오류가 남아 있으면 플래너가 잘못된 전제에 기반해 비효율적인 공격 경로를 생성한다는 한계가 있다.
논문은 이러한 한계를 극복하기 위해 POMDP라는 프레임워크를 도입한다. POMDP는 상태가 완전히 관측되지 않을 때 최적 행동을 선택하도록 설계된 모델로, 여기서는 ‘머신의 운영 체제, 설치된 서비스, 보안 메커니즘(예: DEP)’ 등 불확실한 구성 정보를 확률 분포 형태의 belief state로 표현한다. 스캔 행동은 관측을 제공하고, 익스플로잇 행동은 성공/실패·크래시와 같은 관측을 동시에 반환한다. 보상 구조는 성공적인 익스플로잇에 큰 양의 보상을 주고, 스캔·익스플로잇 각각에 시간 비용과 탐지 위험을 음의 보상으로 부여한다. 이렇게 하면 정책은 “필요한 스캔만 수행하고, 성공 확률이 높은 익스플로잇을 우선 실행”하는 인간 해커와 유사한 행동을 자연스럽게 학습한다.
하지만 전체 네트워크를 하나의 POMDP로 모델링하면 상태 공간이 기계당 가능한 구성 수의 곱으로 급격히 폭발한다. 저자들은 네트워크를 ‘논리적 네트워크(LN)’라는 서브넷 그래프로 추상화하고, 이 그래프를 이중 연결 성분(biconnected components)으로 분해한다. 각 서브넷 내부는 완전 연결된 클러스터로 가정해, 서브넷 간 이동은 방화벽 규칙에 의해 제한된다. 이렇게 하면 (1) 서브넷 수준에서의 공격 계획은 비교적 작은 POMDP로 해결 가능하고, (2) 서브넷 간의 상호작용은 보수적인(과대평가하지 않는) 결합 규칙을 통해 상위 레벨에서 합산한다.
구체적으로, 저자들은 다음과 같은 단계적 알고리즘을 제시한다.
- 네트워크 토폴로지를 LN으로 변환하고, 방화벽 규칙을 엣지에 라벨링한다.
- LN을 이중 연결 성분으로 분해해, 각 성분을 독립적인 하위 문제로 만든다.
- 각 성분 내부의 서브넷을 하나씩 선택해, 해당 서브넷에 속한 개별 머신에 대해 POMDP 모델을 생성한다. 여기서는 머신당 가능한 소프트웨어·보안 설정을 모두 열거하고, 스캔·익스플로잇 행동을 정의한다.
- SARSOP 같은 최신 포인트 기반 POMDP 솔버를 이용해 개별 머신의 최적 정책을 계산한다.
- 각 머신 정책에서 얻은 기대 보상을 서브넷 수준의 가치 함수로 집계하고, 이를 다시 성분 수준, 최종적으로 전체 네트워크 수준으로 전파한다.
이 과정에서 중요한 설계 선택은 ‘보수적 결합’이다. 즉, 서브넷 간 연결이 불확실하거나 방화벽에 의해 차단될 경우, 해당 경로를 사용하지 않는 정책을 기본값으로 삼아 전체 기대 보상이 과대평가되지 않도록 한다. 또한, 상태 공간을 완전 열거하는 대신, 동일한 보안 효과를 갖는 상태들을 병합하는 최적화도 제안한다(예: DEP가 활성화된 경우 SA와 CAU의 취약성 여부는 무관).
실험은 Core Insight Enterprise라는 상용 펜테스팅 툴의 테스트 스위트를 변형해 사용하였다. 실험 설정은 (i) 전체 네트워크를 하나의 거대한 POMDP로 모델링한 ‘글로벌’ 접근법, (ii) 제안된 계층적 분해 방법, (iii) 기존 스캔‑중심 전처리와 플래너 기반 접근법을 비교한다. 결과는 계층적 방법이 실행 시간에서 10배 이상 빠르면서도, 성공적인 침투에 대한 기대 보상은 글로벌 방법과 5~10% 수준 차이로 거의 동등함을 보여준다. 또한, 스캔 비용이 크게 감소해 네트워크 트래픽과 탐지 위험도 동시에 낮아진다.
이 논문의 주요 기여는 다음과 같다.
- 침투 테스트를 POMDP로 공식화함으로써 스캔·익스플로잇을 동적으로 결합하는 정책을 자동 생성한다.
- 네트워크 구조(서브넷·방화벽)를 활용한 문제 분해 기법을 제시해, 실제 규모의 네트워크에도 적용 가능한 확장성을 확보한다.
- 보수적 가치 결합을 통해 근사 정책이 실제 보상을 과대평가하지 않도록 보장한다.
- 상용 테스트베드에서 실험을 수행해, 이론적 모델이 실무에 적용 가능함을 입증한다.
향후 연구 과제로는 (1) 머신 간 권한 상승·패스워드 획득을 LN 레벨에서 보다 정교하게 모델링, (2) 팩터드 POMDP 혹은 샘플링 기반 근사 기법을 도입해 개별 머신의 상태 공간을 더욱 압축, (3) 실시간 탐지 위험을 동적으로 업데이트하는 적응형 보상 설계 등이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기