인간 시각 인지를 활용한 이미지넷 분류기 견고성 향상

본 논문은 인간 시각에서 영감을 얻은 두 가지 메커니즘, 즉 명시적 에피소드 메모리와 형태 편향을 이미지넷 규모의 분류기에 적용하여 견고성을 평가한다. 에피소드 메모리는 작은 노름의 적대적 교란에 대해 강인함을 제공하지만 자연스러운 큰 교란에는 효과가 없으며, 형태 기반 특징을 사용한 모델은 자연 교란에 대한 내성을 높이고 에피소드 메모리와 결합될 때 적대적 교란에도 추가적인 방어를 제공한다. 또한 메모리 크기, 차원 및 검색 방식 등 설계 선…

저자: A. Emin Orhan, Brenden M. Lake

인간 시각 인지를 활용한 이미지넷 분류기 견고성 향상
본 논문은 인간 시각 인지 메커니즘을 딥러닝 이미지 분류기에 적용함으로써 견고성을 동시에 개선하고자 하는 연구이다. 인간은 물체를 인식할 때 두 가지 중요한 특성을 활용한다. 첫째는 과거에 본 구체적인 사물에 대한 에피소드 기억으로, 새로운 시각 입력이 이전에 본 이미지와 얼마나 유사한지를 빠르게 판단한다. 둘째는 물체의 전역적인 형태 정보를 중시하는 형태 편향이다. 기존 ImageNet‑trained 딥러닝 모델은 작은 적대적 교란에 취약하고, 텍스처에 과도하게 의존하며, 인간이 어려워하는 이미지와 인간이 어려워하는 이미지가 일치하지 않는 등 인간 시각과 차이를 보인다. 연구진은 이러한 차이를 메우기 위해 두 가지 요소를 도입하였다. 첫 번째는 명시적 에피소드 메모리(캐시)이다. 훈련 이미지 각각에 대해 사전 학습된 ResNet‑50의 중간 레이어(주로 layer4 bottleneck1 relu)를 통해 저차원 임베딩을 추출하고, 이를 키‑값 사전 형태로 저장한다. 테스트 시 입력 이미지의 임베딩과 모든 키와의 코사인 유사도를 계산하고, 유사도에 비례하는 가중치를 부여해 저장된 원-핫 라벨을 평균함으로써 최종 예측 확률을 얻는다. 이 과정에서 온도 파라미터 θ를 조정해 분포의 날카로움을 제어한다. 두 번째는 형태 편향을 강화한 Shape‑ResNet‑50이다. 이 모델은 ImageNet과 Stylized‑ImageNet을 동시에 학습한 뒤 ImageNet에 미세조정함으로써, 텍스처보다 전역적인 형태 정보를 더 많이 활용하도록 유도한다. 논문은 이러한 형태 기반 특징을 에피소드 메모리의 키로 사용했을 때, 자연 교란에 대한 견고성이 크게 향상된다는 것을 실험적으로 확인한다. 실험은 크게 두 종류의 교란에 대해 수행되었다. 적대적 교란은 PGD(10 iteration, ε∈{0.01,…,0.1})를 사용해 백색, 회색, 흑백 공격 시나리오를 구성하였다. 회색 공격은 백본 모델은 알려져 있으나 메모리 내용은 비공개인 상황을 가정했으며, 흑백 공격은 백본 모델 자체도 다른 모델(ResNet‑18)로 대체하였다. 결과는 에피소드 메모리가 회색 및 흑백 공격에 대해 상당한 방어 효과를 보였으며, 특히 낮은 레이어(예: layer4 bottleneck1 relu)를 키로 사용할 때 작은 ε에서도 정확도가 크게 유지되었다. 반면 백색 공격에서는 메모리 자체가 공격 대상이 되므로 방어 효과가 제한적이었다. 자연 교란은 ImageNet‑C(15 종류, 5 수준)와 mCE(mean Corruption Error) 지표를 사용해 평가하였다. 기본 ResNet‑50은 mCE가 높아 교란에 취약했지만, Shape‑ResNet‑50는 mCE가 크게 낮아졌으며, 이를 에피소드 메모리와 결합했을 때 추가적인 개선이 관찰되었다. 즉, 형태 기반 키는 자연 교란에 대한 구분력을 높이고, 메모리 검색 과정에서 잡음에 대한 민감도를 감소시킨다. 메모리 설계 변수에 대한 분석도 수행하였다. 메모리 차원(d)을 감소시키는 방법과 메모리 항목 수(K)를 클러스터링으로 감소시키는 방법을 비교했을 때, 차원 축소는 성능 저하를 초래했으나 클러스터링은 항목 수를 크게 줄이면서도 정확도를 유지했다. 또한 연속형 캐시(전체 키 사용)와 최근접 이웃 검색(Top‑k) 방식을 비교했으며, 연속형 캐시는 작은 교란에 강하지만 메모리·연산 비용이 크게 증가한다. 최근접 검색은 비용 효율적이며, 형태 기반 키를 사용할 경우 성능 손실이 미미했다. 결론적으로, 에피소드 메모리와 형태 편향은 서로 보완적인 역할을 수행한다. 에피소드 메모리는 기억 기반 매칭을 통해 작은 적대적 변형에 대한 방어를 제공하고, 형태 편향은 전역적인 형태 정보를 통해 자연 교란에 대한 내성을 부여한다. 두 메커니즘을 동시에 적용하면, 인간 시각이 보여주는 견고함에 근접한 이미지 분류기를 구현할 수 있다. 이는 실용적인 이미지 인식 시스템에서 두 종류의 교란 모두에 대비할 수 있는 새로운 설계 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기