압축 기술이 자연적 오염 상태에서의 CNN 강건성에 미치는 영향 평가

읽는 시간: 8 분
...

📝 원문 정보

- Title: Evaluating the Impact of Compression Techniques on the Robustness of CNNs under Natural Corruptions
- ArXiv ID: 2512.24971
- 발행일: 2025-12-31
- 저자: Itallo Patrick Castro Alves Da Silva, Emanuel Adler Medeiros Pereira, Erick de Andrade Barboza, Baldoino Fonseca dos Santos Neto, Marcio de Medeiros Ribeiro

📝 초록

압축된 딥러닝 모델은 자원 제약이 있는 기기에 컴퓨터 비전 시스템을 배포하는 데 중요합니다. 하지만 모델 압축은 특히 자연적인 오염 조건에서 안정성을 저해할 수 있습니다. 따라서 컴퓨터 비전 시스템의 검증 과정에서는 안정성 평가를 고려하는 것이 중요합니다. 본 논문은 양자화, 가위 작업, 가중치 클러스터링을 개별적으로 또는 조합하여 적용한 압축 기법에 대한 포괄적인 평가를 제시하고 있습니다. 이 연구에서는 ResNet-50, VGG-19, 그리고 MobileNetV2와 같은 컨볼루션 신경망에 대해 CIFAR-10-C 및 CIFAR 100-C 데이터셋을 사용하여 안정성, 정확도, 압축 비율 간의 트레이드오프를 분석하였습니다. 우리의 결과는 특정 압축 전략이 복잡한 아키텍처를 가진 네트워크에서 안정성을 유지하거나 향상시킬 수 있음을 보여주고 있습니다. 다목적 평가를 활용하여 최선의 구성 설정을 결정하였으며, 맞춤형 기술 조합이 유익한 다목적 결과를 제공함을 나타내었습니다. 이 연구는 오염된 실제 환경에서 모델을 안정적이고 효율적으로 배포하기 위한 압축 방법 선택에 대한 통찰력을 제공합니다.

💡 논문 해설

1. **압축 기법의 영향 분석**: 이 연구에서는 모델 압축 기법이 자연적인 오염에 대처하는 데 얼마나 효과적인지를 살펴봅니다. 이를 통해 자동차나 스마트폰 같은 제한된 리소스 장치에서도 안정적으로 작동할 수 있는 모델을 개발합니다. 2. **압축 비율과 성능의 균형**: 이 연구는 압축 기법이 정확성과 압축 비율 사이에 어떤 균형을 이루는지 분석합니다. 이를 통해 최적화된 크기와 성능 사이에서 적절한 점을 찾습니다. 3. **다양한 모델과 기법의 조합**: 다양한 모델과 압축 기법의 조합을 실험하고, 각각이 얼마나 효과적인지 비교합니다. 이를 통해 가장 강력한 조합을 찾아낼 수 있습니다.

📄 논문 발췌 (ArXiv Source)

시스템 검증, 기계 학습, 이미지 분류, 견고성, 압축 기법, 엣지 AI, TinyML

서론

인간은 눈이나 블러, 픽셀화와 같은 이미지 구조 및 스타일의 변화에 적응할 수 있지만 컴퓨터 비전 모델은 이러한 변동을 처리하는 데 어려움을 겪습니다. 결과적으로 입력이 자연스럽게 왜곡되면 모델의 성능이 저하되며, 이러한 왜곡은 자율 주행 차량과 같이 안개, 서리, 눈, 모래폭풍 또는 낙엽으로 인해 교통 표지판을 정확히 읽어야 하는 실제 환경에서는 피할 수 없는 문제입니다. 그러나 모든 자연적인 조건을 예측하는 것은 실현 불가능합니다. 따라서 안전성이 중요한 상황에서 컴퓨터 비전 및 기계 학습 시스템의 신뢰성을 검증하기 위해 모델의 견고성을 평가하는 것이 중요합니다.

기계 학습 커뮤니티에서는 다양한 유형의 변동에 대한 모델의 견고성이 연구 주제였습니다. 자연적인 오염은 실제 상황에서 흔히 발생하며, 이를 통해 모델의 정확성은 감소할 수 있으므로 이러한 연구는 널리 수행되었습니다. 모델은 제한된 리소스 장치, 예를 들어 임베디드 시스템과 스마트폰에 배포될 때 가용성을 유지하면서도 모델 크기를 줄이는 것이 필요합니다. 이를 위해 pruning (疎), quantization, weight sharing (clustering) 같은 기법이 제안되었습니다. 이러한 방법은 각각의 고유한 강점을 활용하여 개별적으로 또는 조합하여 사용할 수 있습니다.

따라서 이러한 압축 모델에 대한 자연적인 오염에 대한 견고성을 연구하는 것이 중요합니다. 이는 손상된 이미지가 많은 환경에서 사용될 때 잠재적인 취약점을 폭로하기 때문입니다. 이 작업들은 기계 학습 모델에 압축 기법을 적용하고 이러한 최적화 모델의 견고성을 평가했습니다. 그러나 두 가지 이상의 연속적인 기법을 사용하여 모델을 줄였음에도 불구하고, 그들의 연구는 대립 공격에 대한 견고성에 초점을 맞추었으며 탐색한 기법의 조합은 제한적이었습니다.

이 연구의 목적은 자연 오염에 대한 견고성을 평가하는 압축 기법의 영향을 분석하는 것입니다. 이를 통해 이러한 압축 기법이 다양한 모델과 관련하여 어떤 영향을 미치는지, 그리고 견고성이 압축된 모델에 대한 다른 중요한 지표와 어떻게 연관되는지를 분석합니다.

우리의 주요 기여는 다음과 같습니다.

  • 서로 다른 아키텍처를 가진 모델에서 자연적인 오염에 대한 견고성을 평가하는 압축 기법과 그 조합의 영향을 평가합니다.
  • 견고성, 정확도 및 압축 비율 간의 균형을 평가합니다.

이 논문의 구조는 다음과 같습니다: 섹션 2에서는 우리의 연구와 관련된 문헌을 조사합니다. 섹션 3에서는 오염, 압축 방법, 모델 및 평가 기준을 설명합니다. 섹션 4에서는 실험 결과와 모델 평가를 제공합니다. 마지막으로 섹션 5에서는 결론과 향후 작업을 제안합니다.

관련 연구

에서 분류기 견고성 평가를 위한 benchmark를 설정하여 IMAGENET-C의 창조로 이어졌습니다. 이 benchmark는 이러한 일반적인 도전에 대한 모델 성능을 측정하는 데 도움이 됩니다. 또한 오염 및 변동에 대한 견고성과 대립 공격에 대한 견고성을 구분합니다. CIFAR-10-C, CIFAR-100-C, TINY IMAGENET-C 및 IMAGENET 64 X 64-C와 같은 다른 데이터셋은 IMAGENET-C와 유사한 목적을 가지고 있습니다. 오염에 대한 견고성은 Mean Corruption Error (mCE) 및 Relative Mean Corruption Error (Relative mCE)를 사용하여 정량적으로 평가됩니다.

의 연구에서는 이미지 분류기에 대한 오염에 직면할 때 캘리브레이션과 탄력성을 평가하기 위한 post-hoc pruning의 영향을 조사했습니다. 연구는 Convolutional Neural Networks (CNN)에서 post-hoc pruning이 캘리브레이션, 성능 및 모델 오염에 대한 내구성 향상에 크게 기여한다는 것을 보여주었습니다. 구조화된 pruning은 필터나 채널을 대상으로 하였으며, 비구조화된 pruning은 모델 가중치를 대상으로 하였습니다.

의 연구에서는 다양한 노이즈, 예를 들어 ImageNet에서의 대립 공격, 자연 오염 및 체계적인 노이즈에 대한 양자화 신경망 모델의 견고성을 평가했습니다. 실험 결과는 낮은 비트 양자화가 대립 공격에는 더 강력하지만 자연 오염과 체계적 노이즈에는 덜 강력하다는 것을 보여주었습니다.

의 연구에서는 데이터 편향, 모델 파라미터 편향 및 대립 공격을 포함한 다양한 노이즈에 대한 양자화 신경망 모델의 성능을 Tiny ImageNet 데이터셋을 사용하여 분석했습니다. 이 벤치마크는 세 가지 고전적인 아키텍처와 양자화 방법인 BBPSO-Quantizer를 고려하며, 저 비트폭을 포함합니다. 저자는 모델이 적은 비트로 양자화될수록 뮤추얼 포인터 모델보다 더 잘 작동한다는 결론을 내렸습니다.

에서 연구자들은 양자화, pruning 및 클러스터링과 같은 모델 압축 방법이 TinyML의 신경망에 대한 대립 공격 견고성에 미치는 영향을 탐색했습니다. FGSM과 PGD 방법을 사용하여 대립 예제를 생성하고, 기법 적용 후 단독으로 및 공동으로 훈련된 모델의 견고성을 평가했습니다. 결과적으로 일반적인 견고성 저하가 발생했지만, 기법의 조합은 개별 응용보다 크게 나아지지 않았습니다. 일부 기법은 작은 변동에 대한 내구성을 높였습니다.

에서 연구자들은 자연 오염에 대한 견고성을 평가하기 위한 벤치마크를 설정했지만 압축 기법의 영향을 분석하지는 않았습니다. 또한에서는 압축 기법이 대립 공격에 대한 견고성에 미치는 영향을 조사했습니다. 의 요약 표 [tab:related_works]에서 개별 기법에 초점을 맞추었으며, 방법의 조합 또는 견고성 분석에 가중치 공유를 포함하지 않았습니다. 따라서 이 작업은 자연 오염에 대한 CNN의 견고성을 평가하는 압축 기법의 영향을 분석하고 견고성이 정확도 및 압축 비율과 같은 다른 중요한 지표와 어떻게 상호 작용하는지 조사하는 데 관련이 있습니다.

방법론

초기에는 ImageNet 데이터셋에서 사전 훈련된 가중치로 모델을 로드하여 연구 목표를 달성했습니다. 전이 학습은 이러한 모델들을 CIFAR-10 및 CIFAR-100 데이터셋에 적응시키는 데 사용되었습니다. 초기 평가는 손상되지 않은 테스트 이미지를 사용하여 성능 측정 기준을 제공합니다. 이후 다양한 압축 기법이 개별적으로 또는 조합으로 적용되었습니다. 최적화된 모델은 정확도, mean corruption error (mCE) 및 압축 비율 세 가지 주요 지표를 사용하여 평가됩니다. 이러한 지표는 성능, 견고성, 효율성을 중점적으로 분석하는 포괄적인 분석을 지원합니다. 다음 섹션에서는 이러한 절차를 상세히 설명합니다.

손상된 이미지용 데이터셋으로 CIFAR-10-C 및 CIFAR-100-C가 선택되었습니다. 이들에는 15개의 오염 유형이 있으며 각각 5단계의 심각도가 있습니다 (그림 1 참조). 따라서 각 데이터셋은 CIFAR-10 및 CIFAR-100에 대해 75개의 오염이 적용됩니다. 따라서 CIFAR-10과 CIFAR-100은 손상되지 않은 (깨끗한) 이미지를 평가하기 위해 사용되었습니다. 제안된 다른 이미지 데이터셋에도 불구하고, CIFAR-10-C와 CIFAR-100-C는 다른 것들보다 더 작은 크기 때문에 주로 선택되었습니다. CIFAR-10과 CIFAR-100 테스트 집합은 각각 10,000개의 이미지를 포함하며, 결과적으로 이러한 모델들을 빠르게 구축하고 검증할 수 있어 많은 컴퓨팅 리소스 없이도 가능합니다. 또한 두 개의 데이터셋을 사용함으로써 CIFAR-10 (10개 분류 클래스)과 함께 간단한 맥락에서 모델 평가를 수행하고, CIFAR-100 (100개 분류 클래스)과 함께 복잡한 맥락에서 평가할 수 있습니다.

이 연구에서 고려된 15종의 오염 (출처: )

자주 발생하는 오염에 대한 견고성을 평가하기 위해 사용한 여러 최신 모델, ResNet-50 및 VGG-19를 포함하여 연구에서 몇몇 모델을 사용했습니다. 또한에서는 MobileNetV2를 사용했습니다. 이 작업에서는 다음과 같은 모델을 사용합니다: (1) ResNet-50은 컴퓨터 비전 작업에 널리 사용되는 고전적인 백본 아키텍처이며, 그 외에도에서 가장 좋은 결과를 보였습니다; (2) VGG-19는 단순한 층으로 구성된 깊은 아키텍처입니다; (3) MobileNetV2는 임베디드 장치에 효율적으로 배포하기 위해 설계된 lightweight 모델입니다. 따라서 이러한 옵션을 통해 다양한 종류의 모델과 그 크기를 가질 수 있습니다.

훈련, fine-tuning, 및 최적화를 위한 도구로 TensorFlow와 LiteRT를 사용합니다. LiteRT는 엣지 장치에서 머신 러닝에 최적화되어 있으며, TensorFlow에는 모델 압축을 위해 특별히 구성된 모듈이 있습니다. 압축은 이 연구의 핵심 포인트이며 TensorFlow와 LiteRT는 양자화 (quantization), 사후 훈련 및 훈련 중 pruning과 Weight Sharing 기법을 가지고 있어 쉽게 구현할 수 있습니다. 또한, 하나의 기법이 적용된 후 다른 기법을 적용하여 축적된 압축 효과를 확인하기 위해 협력적인 압축을 적용합니다. 그림 2는 더 적은 모델을 찾기 위한 다양한 배포 경로를 보여줍니다. 리프 노드는 배포 준비가 완료된 모델, 즉 부분적으로 또는 전체적으로 tflite 형식에서 양자화되어 있는 모델입니다. 녹색 채움은 fine-tuning이 필요한 단계를 나타내고 빨간색 테두리는 협력적인 최적화 단계를 나타냅니다. 훈련 중 또는 사후 양자화만을 포함하는 배포 경로는 그림에서 누락되었습니다. 따라서 이 작업의 아이디어는 이러한 기법들을 개별적으로와 함께 평가하여 연속된 조합 기법이 오염에 대한 견고성에 미치는 영향을 평가하는 것입니다. 적용된 기술 세트는 표 1에서 볼 수 있습니다. 또한, 이 연구에서 고려한 CNN 모델을 구현하기 위해 Keras API를 사용합니다. 마지막으로 Python 언어와 Pandas, NumPy, Scikit-learn, 그리고 Matplotlib 라이브러리를 사용합니다.[^2]

코드 압축 기법
1 원본
2 양자화 Int8
3 스파시티 (pruning)
4 스파시티와 양자화 Int8
5 클러스터링 (가중치 공유)
6 클러스터링과 양자화 Int8
7 스파시티 유지 클러스터링
8 스파시티 유지 클러스터링과 양자화 Int8
9 양자화 인식 훈련 (QAT)
10 QAT와 양자화 Int8
11 클러스터링 유지 QAT (CQAT)
12 CQAT와 양자화 Int8
13 스파시티 유지 QAT (PQAT)
14 PQAT와 양자화 Int8
15 Pruning 유지 클러스터링 유지 QAT (PCQAT)
16 PCQAT와 양자화 Int8

적용된 압축 기법 세트

Tensorflow의 협력 최적화 트리 (출처: )

[tab:all_hyperparameters]는 모델의 각 구성 요소, 아키텍처, 훈련 구성 및 압축 기법에 대한 하이퍼파라미터를 정리합니다. 우리는 표의 Model 섹션에 나열된 하이퍼파라미터를 사용하여 원본 및 압축 모델을 학습했습니다. Adam 최적화자를 사용한 이유는 적응형 학습률과 모멘텀 특성으로 인해 수렴 속도가 빠르고, 깊은 신경망의 훈련에서 강력한 실증적인 성능을 보여주었기 때문입니다. 또한 우리가 가진 문제 유형 때문에 categorical cross-entropy를 사용했습니다. 전이 학습 또는 fine-tuning을 포함하는 모든 단계에서는 30 에폭의 제한과 5 에폭의 참을성을 가지는 Early Stopping 기법을 적용했습니다. 그러나 pruning 기법에는 Early Stopping을 적용하지 않았습니다. 이는 pruning이 에폭의 과정에서 점진적으로 수행되기 때문에 학습을 조기에 중단하면 그 효과가 저해될 수 있기 때문입니다. Pruningweight sharing 기법에 대해서는 TFLite에서 정의된 표준 하이퍼파라미터를 따랐습니다.

CIFAR-10 CIFAR-100
모델 정확도 (%) 정확도 (%) 크기 (MB)
ResNet-50 88% 76% 91MB
VGG-19 72% 56% 73MB
MobileNetV2 90% 72% 13MB

원본 모델의 결과.

2는 압축 전 원본 모델의 정확도와 크기를 보여줍니다. 이러한 결과는 압축된 모델에 대한 참조로 사용됩니다. 특히 CIFAR-10에서 MobileNetV2가 가장 높은 90%의 정확도를 달성하고 가장 작은 모델이며, VGG-19는 최저인 72%입니다. CIFAR-100에 대해 ResNet-50이 76%의 정확도로 선두를 차지하고 가장 큰 모델이며, VGG-19는 다시 최하위 성능을 보이고 있습니다.

모델과 압축 기법을 평가하기 위해 다음 지표들을 고려했습니다: 정확성, Mean Corruption Error (mCE), 및 th


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키