깊은 신경망 모델 추출을 위한 종단형 다항시간 공격

깊은 신경망 모델 추출을 위한 종단형 다항시간 공격
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 기존 모델 추출 기법이 얕은 네트워크에만 적용되던 한계를 극복하고, 서명 추출 단계의 랭크 결함과 깊은 층에서 발생하는 잡음 전파 문제를 해결한다. 이를 통해 8층 이상의 ReLU 기반 신경망을 다항시간 안에 완전하게 복원하는 최초의 종단형 공격을 제시한다.

**

상세 분석

**
Carlini et al. (2020)의 두 단계(서명 추출 → 부호 추출) 접근법은 이론적으로는 깊은 네트워크까지 확장 가능하다고 주장했지만, 실제 구현에서는 선형 시스템의 랭크가 부족해 깊은 층에서 절대값(서명) 추출이 실패하고, 뒤쪽 층의 활성화가 앞쪽 층의 임계점에 혼입되는 잡음 전파 현상이 관찰되었다. 저자들은 이러한 두 가지 핵심 병목을 정량적으로 분석하고, (1) 랭크 보강을 위해 추가적인 임계점 샘플링과 가중치 행렬의 차원 확대 기법을 도입하였다. 구체적으로, 기존에 사용하던 𝑚개의 임계점이 충분히 독립적이지 않을 경우, 무작위 방향으로 작은 변형을 가한 입력을 추가 생성해 선형 방정식 시스템의 행렬을 전치·확장함으로써 풀랭크를 보장한다. (2) 깊은 층 잡음 억제에서는 각 층별 활성화 패턴을 추적해 뒤쪽 층에서 유입되는 신호를 사전 예측하고, 이를 차감하는 필터링 절차를 설계하였다. 이 과정에서 폴리토프(Pₓ) 영역을 정밀히 재구성하고, 해당 영역 내에서 동일한 활성화 패턴을 유지하는 입력 집합을 선택함으로써 깊은 층의 영향을 최소화한다.

부호 추출 단계에서는 Canales‑Martínez et al. (2024)의 다항시간 알고리즘이 저신뢰(neuron wiggle)와 저신뢰 신경에 대해 여전히 탐색 비용이 급증한다는 점을 지적한다. 저자들은 두 개의 기존 다항 알고리즘을 조합하여, (i) 신뢰도가 높은 뉴런에 대해서는 기존 wiggle 방식을 그대로 적용하고, (ii) 신뢰도가 낮은 뉴런에 대해서는 확률적 샘플링 기반의 후보 부호 집합을 생성한 뒤, 교차 검증을 통해 최적 부호를 선택하는 절차를 도입한다. 이때 후보 집합의 크기를 입력 차원과 활성화 패턴의 복잡도에 비례하도록 제한함으로써 전체 복잡도를 O(poly(n)) 수준으로 유지한다.

수치적 정밀도 향상을 위해 저자들은 고정소수점 대신 64비트 부동소수점 연산을 활용하고, 선형 시스템 해석 시 조건수(condition number)를 최소화하는 정규화 기법을 적용했다. 실험에서는 MNIST와 CIFAR‑10 데이터셋에 대해 각각 8층, 8·256, 8·16 구조의 완전 연결 ReLU 네트워크를 대상으로, 기존 방법이 3층까지만 복원 가능한 데 반해 본 방법은 8층 전체(또는 73% 입력 공간)에서 평균 상대 오차 3.6 × 10⁻⁴ 이하를 달성했다. 또한, 복원된 가중치의 92% 이상이 정확히 동일하거나 부호만 차이 나는 수준으로, 기능적 동등성을 거의 완전하게 보장한다.

이러한 기여는 (1) 서명 추출 단계의 구조적·수치적 한계를 체계적으로 해결하고, (2) 부호 추출 단계에서 저신뢰 뉴런 문제를 다항시간 내에 처리함으로써, 실제 서비스 환경에서 깊은 신경망을 대상으로 하는 블랙박스 모델 추출 공격이 실현 가능함을 입증한다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기