RefSR-Adv 참조 기반 이미지 초해상도 모델의 적대적 공격

읽는 시간: 8 분
...

📝 원문 정보

- Title: RefSR-Adv Adversarial Attack on Reference-based Image Super-Resolution Models
- ArXiv ID: 2601.01202
- 발행일: 2026-01-03
- 저자: Jiazhu Dai, Huihui Jiang

📝 초록

단일 이미지 초해상화(SISR)는 다양한 아키텍처를 통해 저해상도 입력에서 고해상도 세부 사항을 복원하는 데 사용됩니다. 그러나 SISR은 제한된 정보로 인해 실제적이지 않은 아트팩이나 텍스처 환상을 합성하게 됩니다. 이를 극복하기 위해, Reference-based Super-Resolution (RefSR)에서는 외부 고주파수 텍스처 라이브러리인 고해상도 참조 이미지를 도입하여 유사한 텍스처를 전송하는 방식을 사용합니다. 이 논문은 이러한 RefSR 시스템의 보안 취약성을 체계적으로 탐색하고, 참조 이미지에 약간의 변화를 주어 출력을 저하시키는 새로운 적대적 공격인 RefSR-Adv를 제안합니다.

💡 논문 해설

1. **RefSR-Adv: 보안 취약성 폭로** 이 논문은 Reference-based Super-Resolution (RefSR) 시스템의 참조 이미지에 대한 새로운 적대적 공격, RefSR-Adv를 제시합니다. RefSR-Adv는 저해상도(LR) 입력을 변형하지 않고 참조 이미지를 통해 간접적으로 조작하는 방법으로, LR 입력이 그대로 유지되어 빠른 검사에서도 통과됩니다.
  1. 참고 표면 공격의 보안 취약성
    RefSR-Adv는 참조 이미지에 미세한 변형을 가해 출력을 저하시키는 새로운 방식입니다. 이 방법은 참조 이미지를 보조 입력으로 사용하는 시스템에서 효과적이며, 이를 통해 참조 이미지의 보안 취약성이 드러납니다.

  2. 적대적 공격과 참조 이미지의 상관성
    RefSR-Adv는 저해상도(LR)와 참조 이미지(Ref) 간의 유사성을 이용하여 공격을 최대화합니다. 이 연구는 참조 이미지에 대한 과도한 의존성이 RefSR 아키텍처의 보안 취약성임을 밝힙니다.

📄 논문 발췌 (ArXiv Source)

참조 기반 초해상화, 적대적 공격

서론

단일 이미지 초해상화(SISR)는 저해상도(LR) 입력에서 고해상도 세부 사항을 복원하기 위해 다양한 아키텍처를 통해 발전해 왔습니다. 그러나 LR 입력에 충분한 정보가 부족하여 SISR은 실제적이지 않은 아트팩이나 텍스처 환상을 합성하게 됩니다. 이러한 한계를 극복하기 위해, Reference-based Super-Resolution (RefSR) 시스템에서는 고해상도 참조 이미지를 외부 고주파수 텍스처 라이브러리로 도입합니다. RefSR은 특징 일치 및 융합을 통해 유사한 텍스처를 참조 이미지에서 전송하여 우수한 복원을 달성합니다. 이러한 시스템은 위성이용 원격탐사를 비롯해 의료 영상, 지능형 감시 등 보안 민감도가 높은 분야에서 큰 잠재력을 보여주고 있지만, 이들 두 입력 시스템의 보안 취약성에 대한 연구는 아직 충분히 이루어지지 않았습니다.

현재 초해상화의 보안 연구는 주로 두 가지 차원을 다룹니다: (i) LR 입력에 약간의 변화를 가하여 SISR에 적대적 공격을 가하는 것, 그리고 (ii) RefSR에 백도어 공격을 가하는 것(훈련 데이터를 오염시킬 수 있다고 가정). SISR과 달리 RefSR은 고유한 두 개의 입력 구조(LR과 참조 이미지)를 갖습니다. 이 아키텍처 특성으로 인해 새로운 취약점이 드러납니다: 공격자가 참조 이미지를 약간 변형하여 출력을 저하시킬 수 있을까요?

본 논문에서는 RefSR의 내재된 보안 취약성을 체계적으로 폭로하고, RefSR-Adv라는 새로운 적대적 공격을 제안합니다. 기존의 적대적 공격이 반드시 LR 입력을 변형해야 하는 반면, RefSR-Adv는 참조 이미지만 변형하여 간접적으로 조작하는 방법을 사용합니다. 이 전략은 두 가지 핵심적인 장점을 제공합니다:

  • LR 입력의 무결성: RefSR-Adv는 LR 입력의 비트 단위 무결성을 유지합니다. LR 입력에 엄격한 무결성 검사(예: 해시 확인 또는 디지털 서명)가 적용된 시스템에서는, 기존 공격은 확인 오류로 실패하지만 RefSR-Adv는 LR 입력을 건드리지 않기 때문에 이러한 방어를 완벽히 우회합니다.

  • 증강된 위장성: 실제 워크플로에서 참조 이미지는 보조 입력으로 사용되며 일반적으로 최종 사용자에게 표시되지 않습니다. 인간의 검토는 주로 최종 초해상화 결과에 집중하기 때문에 참조 이미지의 픽셀 수준 변화는 자연스럽게 위장되어 감지가 어렵습니다.

본 연구의 주요 기여사항은 다음과 같습니다:

  1. 우리는 RefSR 시스템에서 “보조 표면 공격"이라는 보안 취약성을 폭로하는 RefSR-Adv를 제안합니다. 우리의 연구는 참조 이미지를 대상으로 하는 적대적 공격을 처음으로 탐색한 것으로 알려져 있습니다.

  2. 네 가지 인기 있는 RefSR 모델(CNN, Transformer, Mamba)에 대한 광범위한 실험을 수행했습니다. 결과는 이 보안 결함이 다양한 아키텍처에 걸쳐 일반적이라는 것을 나타내며, 참조 이미지에 대한 안전성 검증의 부재를 드러냅니다.

  3. LR-참조 유사도와 공격 성능 간의 긍정적인 상관관계를 밝혀냈습니다. 이는 RefSR 아키텍처에서 외부 참조 특징에 대한 과도한 의존성이 보안 취약성임을 시사합니다.

관련 연구

이미지 초해상화

이미지 초해상화(SR)는 저해상도 입력에서 고해상도 세부 사항을 복원하는 것을 목표로 합니다. 입력 소스와 활용되는 사전 정보에 따라 SR은 SISR과 RefSR 두 가지 범주로 나눌 수 있습니다.

SISR은 모델 내에서 학습된 암시적 사전 정보를 이용하여 단일 LR 입력으로부터 이미지를 복원합니다. 최근 10년 동안 SISR은 CNNs와 Transformer에서 State Space Models(SSMs) 및 Diffusion Models까지 발전해왔습니다. 그러나 LR 입력에 포함된 정보가 본질적으로 제한적이기 때문에, SISR 모델은 종종 세밀한 세부 사항을 재구성하는 데 어려움을 겪으며 출력에 실제적이지 않은 아트팩이나 텍스처 환상을 생성하게 됩니다.

LR 입력의 내재적 정보 한계를 극복하기 위해, RefSR은 외부 고해상도 참조 이미지를 도입하여 고주파수 텍스처를 이전합니다. 특징 일치 및 적응 융합 메커니즘을 통해 RefSR은 참조 이미지의 유사한 텍스처를 복원된 출력으로 전송하고 우수한 세부 사항 복원을 달성합니다. RefSR의 진화는 주로 정렬 도전 과제에 초점을 맞추어 초기 패치 일치에서 Transformer 기반 메커니즘으로 발전해왔습니다. 최근에는 Mamba 아키텍처를 통합하여 효율적인 장거리 종속성 모델링을 수행합니다. 그러나 RefDiff와 같은 최신 연구는 확률적 잡음 제거 메커니즘이 기본적으로 CNN, Transformer 및 SSM 아키텍처의 결정론적 특징 매핑과 근본적으로 다르기 때문에 본 연구는 이러한 결정론적 아키텍처의 보안 취약성에 초점을 맞추고 있습니다.

초해상화의 보안 위협

이미지 초해상화의 보안 연구는 주로 두 가지 다른 위협 범주를 탐색합니다: 적대적 공격과 백도어 공격입니다.

적대적 공격은 추론 단계에서 입력 데이터에 미세하고 고의적으로 설계된 변형을 도입하여 성능 저하를 유발하는 것을 목표로 합니다. 초기 연구는 다양한 SISR 아키텍처의 취약성을 체계적으로 평가했으며, SISR에 대한 적대적 공격이 “상류 방해"로서 하류 작업을 오도시키는 가능성을 밝혀냈습니다. 이후 SIAGT에서는 복잡한 시나리오에서 스케일 불변 공격을 달성하고, 엣지 장치 추론 스트림에 적대적 샘플을 배포하는 과제를 탐색했습니다. 그러나 현재 초해상화의 적대적 연구는 주로 단일 입력 SISR 모델을 해킹하기 위해 LR 스트림을 변형하는 데 집중하고 있습니다. RefSR은 고유한 두 개의 입력 아키텍처(LR 및 참조 특징)를 통합하므로, 참조 경로에 대한 적대적 공격 취약성은 전혀 탐색되지 않았습니다. 이러한 연구 간극을 메꾸기 위해, RefSR-Adv는 이전에는 주목받지 않았던 “보조 표면"을 대상으로 하는 새로운 적대적 공격을 제시합니다.

백도어 공격은 훈련 데이터에 트리거를 삽입하여 모델 내부에 숨겨진 악의적인 행동을 삽입하는 과정, 즉 “데이터 오염” 과정을 통해 이루어집니다. 최근 연구인 BadRefSR은 참조 이미지에 트리거를 삽입함으로써 RefSR 시스템에서 이러한 위협을 탐색했습니다. 이러한 연구는 중요한 위험성을 강조하지만, 공격자가 훈련 데이터를 오염시킬 수 있다고 가정하며 실제 상황에서는 불가능할 수도 있습니다. 백도어 기반 “데이터 오염"과 달리 RefSR-Adv는 배포 또는 추론 과정에서 적대적 위협으로 작동하며 훈련 단계에 대한 액세스가 필요하지 않습니다. 백도어 위협은 이미 탐색되었지만, 참조 이미지에 대한 추론 과정 중의 적대적 공격은 여전히 연구되지 않았습니다. RefSR-Adv는 이러한 연구 간극을 메꾸고 있습니다.

방법론

이 섹션에서는 먼저 RefSR의 정식 정의를 제공하고, 기존 SISR 공격의 한계를 분석한 후 우리의 위협 모델을 제안합니다. 마지막으로 RefSR-Adv 공격의 최적화 목표와 알고리즘 세부 사항에 대해 설명합니다.

서론

SISR과 달리 RefSR은 모델 내에서 복원을 위해 암시적 사전 정보를 사용하는 대신 고해상도 참조 이미지를 외부 고주파수 텍스처 라이브러리로 도입합니다. 공식적으로, 저해상도 입력 $`I_{LR} \in \mathbb{R}^{H \times W \times C}`$와 참조 이미지 $`I_{Ref} \in \mathbb{R}^{H_{ref} \times W_{ref} \times C}`$가 주어졌을 때, RefSR 모델은 다음과 같이 고해상도 이미지를 복원합니다:

MATH
\begin{equation}
I_{SR} = \mathcal{M}(I_{LR}, I_{Ref}; \theta),
\end{equation}
클릭하여 더 보기

여기서 파라미터 $`\theta`$는 주로 다음과 같은 두 가지 방법 중 하나를 통해 최적화됩니다:

  • 복원만($`L_{rec}`$): 이 접근 방식은 픽셀 수준 신호 정확도에 초점을 맞춥니다. 복원 손실은 일반적으로 $`I_1`$-노름을 사용하여 슈퍼 리솔브된 출력과 참조 이미지 $`I_{GT}`$ 사이의 절대 차이를 측정합니다:

    MATH
    \begin{equation}
            L_{rec} = \frac{1}{N} \sum_{i=1}^{N} \| \mathcal{M}(I_{LR}^i, I_{Ref}^i; \theta) - I_{GT}^i \|_1,
    \end{equation}
    클릭하여 더 보기

    여기서 $`N`$은 훈련 샘플의 수입니다. 이 목표로 최적화하면 PSNR과 SSIM 측면에서 높은 수치 점수를 얻지만, 개별 $`L_1`$ 손실은 세밀한 텍스처가 부족한 과도하게 부드러운 결과를 초래할 수 있습니다.

  • 전체 손실($`L_{full}`$): 시각적으로 더 좋은 세부 사항을 생성하기 위해 합성 전체 손실을 사용합니다: $`L_{full} = L_{rec} + \lambda_{1} L_{per} + \lambda_{2} L_{adv}`$. 여기서 하이퍼파라미터 $`\lambda_{1}`$ 및 $`\lambda_{2}`$는 픽셀 수준 신호 정확도와 고수준 인식 실재성 간의 균형 조정을 위해 사용됩니다.

    인식 손실($`L_{per}`$): 사전 훈련된 VGG 모델의 특징 맵을 활용하여 $`L_{per}`$는 고차원 특징 공간에서 모델을 제약합니다:

    MATH
    \begin{equation}
                L_{per} = \frac{1}{N} \sum_{i=1}^{N} \| \phi_{j}(I_{SR}^i) - \phi_{j}(I_{GT}^i) \|_F,
    \end{equation}
    클릭하여 더 보기

    여기서 $`\phi_{j}(\cdot)`$는 VGG 모델의 $`j`$번째 레이어 출력을 나타내며 $`\|\cdot\|_F`$는 Frobenius 노름을 나타냅니다.

    적대적 손실($`L_{adv}`$): 이 손실은 일반적으로 GANs를 통해 구현되며, 생성된 이미지와 실제 이미지 간의 분포 차이를 벌칙함으로써 모델이 현실적인 고주파수 텍스처를 합성하도록 장려합니다:

    MATH
    \begin{equation}
            L_{adv} = -\mathbb{E}_{I_{SR}} [\log(D(I_{SR}))],
    \end{equation}
    클릭하여 더 보기

    여기서 $`D`$는 실제 참조 이미지와 복원된 이미지를 구분하는 판별자입니다. 이 접근 방식은 모델이 복잡한 텍스처를 이전하고 재구성하는 능력을 크게 향상시키지만, 동시에 네트워크의 민감도와 “과도한 신뢰"를 참조 특징으로 증가시킬 수 있습니다.

위협 모델 및 문제 정식화

본 연구에서는 RefSR 모델이 백색 상자 공격 설정 하에서의 적대적 견고성을 탐색합니다. 이것은 모델의 보안 경계를 엄격하게 평가하는 방법입니다.

공격자의 능력

초해상화 연구의 표준적인 적대적 설정에 따라, 우리는 공격자가 목표 RefSR 모델 $`\mathcal{M}`$, 특정 아키텍처와 내부 파라미터 $`\theta`$ 및 최적화를 위한 기울기를 완전히 알고 있다고 가정합니다. 공격자의 능력은 고해상도 참조 이미지 $`I_{Ref}`$에 약간의 픽셀 수준 적대적 변형 $`\delta`$을 주입하는 것으로 제한됩니다. 반면, 기본 저해상도 입력 $`I_{LR}`$은 변경되지 않습니다.

문제 정식화

RefSR-Adv의 목표는 참조 이미지에 추가된 최적의 적대적 변형 $`\delta`$를 찾아내어 슈퍼 리솔브 출력에서 최대 복원 오류를 유발하는 것입니다. 실제 고해상도 이미지를 $`I_{GT}`$로 나타낼 때, 공격은 모델 출력과 참조 간의 손실을 최대화하도록 구성된 제약 조건 최적화 문제입니다:

MATH
\begin{equation}
\max_{\delta} \mathcal{L} \Big( \mathcal{M}(I_{LR}, I_{Ref} + \delta), I_{GT} \Big),
\end{equation}
클릭하여 더 보기

다음 제약 조건에 따라:

MATH
\begin{equation}
||\delta||_{\infty \le} \epsilon, \quad (I_{Ref} + \delta) \in [0, 1]^{H_{ref} \times W_{ref} \times C},
\end{equation}
클릭하여 더 보기

여기서 $`\mathcal{L}(\cdot)`$는 신호 정확도 저하를 측정하는 손실 함수(예: $`L_2`$ 손실)를 나타내며, $`\epsilon`$은 허용되는 최대 변형 예산을 나타냅니다. 이를 통해 적대적 수정이 인간 관찰자에게 인지되지 않도록 보장합니다.

RefSR-Adv 공격

RefSR-Adv 공격 프레임워크 개요. 이 절차는 두 가지 주요 단계로 구성됩니다: (1) 기준 생성, 참조 이미지를 이용해 클린 초해상화 출력 Iclean 를 합성하여 의사 고해상도 참조 기준을 만드는 단계; (2) 적대적 최적화, 보조 참조 스트림 내에서 학습 가능한 변형 δ를 반복적으로 최적화하여 출력 불일치를 극대화하고 최종 적대적 출력 Iadv에 심각한 텍스처 아트팩을 유발하는 단계.

그림 1에서 보듯이 RefSR-Adv는 기울기 기반 반복 최적화 패러다임을 사용하며 세 가지 핵심 구성 요소를 포함합니다:

의사 고해상도 참조 전략

실제 추론 시나리오에서는 실제 고해상도 참조 이미지 $`I_{\text{GT}}`$가 공격자에게 본질적으로 접근 불가능합니다. 이를 해결하기 위해 우리는 의사 고해상도 참조 전략을 채택하여 선한 조건 하에서 모델의 출력을 기준선으로 사용합니다. 구체적으로, 원래 저해상도 이미지 $`I_{LR}`$과 클린 참조 이미지 $`I_{Ref}`$로부터 생성된 클린 초해상화 출력은 다음과 같이 정의됩니다:

MATH
\begin{equation}
    I_{clean} = \mathcal{M}(I_{LR}, I_{Ref}; \theta).
\end{equation}
클릭하여 더 보기

$`I_{clean}`$를 높은 품질의 프록시로 사용함으로써, 공격의 정도를 정확하게 측정할 수 있습니다. 이 전략은 실제 배포 환경에서 참조 이미지가 알려져 있지 않은 상황에서도 최적화에 대한 안정적인 “예상” 기준을 제공합니다.

파괴 손실 정식화

신호 정확도의 극대한 저하를 유발하기 위해, 우리는 클린 기준 $`I_{clean}`$과 적대적 출력 $`I_{adv}`$ 사이의 불일치를 최대화하는 파괴 손실 $`\mathcal{L}_{des}`$을 제시합니다. $`I_{adv} = \mathcal{M}(I_{LR}, I_{Ref} + \delta; \theta)`$는 변형된 참조 이미지로부터 생성된 출력입니다. 우리는 $`L_2`$ 노름을 사용하여 목표를 형식화합니다:

MATH
\begin{equation}
    \mathcal{L}_{des}(\delta) = \| I_{adv} - I_{clean} \|_2.
    \label{eq:loss_des}
\end{equation}
클릭하여 더 보기

$`L_2`$ 노름을 선택한 이유는 두 가지 핵심적인 요인 때문입니다. 첫째, 유클리드 거리를 최대화하는 것이 신호 정확도의 극대한 저하를 유발합니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키