제로샷 학습의 적대적 취약성 클래스와 개념 수준 공격 분석

제로샷 학습의 적대적 취약성 클래스와 개념 수준 공격 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 제로샷 학습(ZSL) 모델이 클래스 수준 공격과 새롭게 제안된 개념 수준 공격에 얼마나 취약한지를 체계적으로 조사한다. 일반적인 비목표 클래스 공격(clsA)은 GZSL 설정에서 보정 파라미터가 바뀌면 효과가 사라지는 ‘거짓 성공’을 보이며, 이를 보완하기 위해 클래스 편향 강화 공격(CBEA)을 제안한다. 또한 개념을 조작하는 CPconA와 NCPconA 두 가지 공격을 도입해 개념 예측 단계에서도 심각한 취약성을 밝혀낸다.

상세 분석

본 연구는 제로샷 학습(ZSL)과 일반화 제로샷 학습(GZSL) 모델이 두 가지 핵심 구조적 특성—‘개념 예측 단계’와 ‘클래스 편향’—에 의해 공격에 취약함을 명확히 규명한다. 첫 번째 실험에서는 기존의 비목표 클래스 공격(clsA)을 적용했을 때, ZSL 모델의 정확도가 원래 최적 보정점(γ)에서 급격히 감소한다는 사실을 확인한다. 그러나 GZSL 상황에서는 보정 파라미터 γ를 조정하면 정확도가 다시 회복되는 현상이 관찰되었다. 이는 clsA가 실제 모델의 전반적인 취약성을 드러내기보다, 특정 보정 설정에만 영향을 미치는 ‘거짓 성공’에 불과함을 의미한다. 이러한 현상을 해결하기 위해 저자들은 클래스 편향을 인위적으로 확대하는 Class‑Bias Enhanced Attack(CBEA)를 설계하였다. CBEA는 손실 함수에 ‘seen‑unseen 확률 차이’를 증폭시키는 항을 추가함으로써, 모든 γ 값에서 보정된 정확도를 0에 가깝게 만든다. 결과적으로 GZSL 모델은 보정 파라미터를 어떻게 조정하더라도 전반적인 성능이 붕괴되는 것을 확인했다.

두 번째 연구축은 ‘개념 수준 공격’이다. ZSL 모델은 시각 특징 → 개념 → 클래스 라는 두 단계 파이프라인을 거치므로, 중간 개념 예측을 조작하면 최종 클래스 결과에 직접적인 영향을 미칠 수 있다. 저자들은 두 가지 공격 모드를 제안한다. 첫 번째인 Class‑Preserving Concept Attack(CPconA)는 개념 벡터의 일부 차원을 선택적으로 왜곡하거나 삭제하면서도 최종 클래스 라벨이 변하지 않도록 설계된다. 이는 개념 설명이 왜곡되어도 모델이 동일한 클래스를 예측하게 함으로써, 인간이 해석하는 의미와 모델의 내부 판단 사이에 불일치를 초래한다. 두 번째인 Non‑Class‑Preserving Concept Attack(NCPconA)는 개념을 조작해 최종 클래스 라벨 자체를 바꾸는 공격이다. 여기서는 특정 개념을 인위적으로 삽입하거나 제거함으로써, 원래는 전혀 관련 없는 클래스가 높은 확률을 얻도록 만든다.

실험은 최근 3년간 발표된 대표적인 임베딩 기반 ZSL 모델 세 가지—CNN 기반 ReZSL, Vision Transformer 기반 PSVMA, 그리고 Mamba 기반 ZeroMamba—를 대상으로 수행되었다. 다양한 백본(ResNet‑101, ViT‑B/16, Mamba‑S)과 데이터셋(CUB, AWA2, SUN)에서 동일한 공격 파라미터(ε=8/255, PGD‑10)로 평가했으며, 결과는 다음과 같다. (1) clsA는 기존 논문에서 보고된 것보다 GZSL에서는 보정점에 따라 성공률이 크게 변동한다. (2) CBEA는 모든 보정점에서 Top‑1 정확도를 0‑5% 수준으로 급격히 저하시킨다. (3) CPconA는 개념 예측 정확도는 30‑40% 감소하지만, 클래스 정확도는 변동이 적어 ‘해석 가능성’만을 손상시킨다. (4) NCPconA는 개념을 조작함으로써 클래스 전환율을 60% 이상 끌어올릴 수 있다.

이러한 결과는 ZSL 모델이 단순히 시각‑개념 매핑만을 학습하는 것이 아니라, 개념 자체가 공격 표면이 될 수 있음을 보여준다. 특히 GZSL에서 보정 파라미터가 모델의 방어 메커니즘처럼 오인될 수 있다는 점은 기존 평가 프로토콜에 중요한 함의를 가진다. 논문은 향후 연구 방향으로 (a) 개념 예측 단계에 대한 정규화 및 견고한 손실 설계, (b) 동적 보정 기법이 공격에 강인하도록 하는 메타‑학습, (c) 개념 수준의 설명 가능성을 유지하면서도 적대적 견고성을 확보하는 다중 목표 최적화 방법을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기