선형 감소 가중치 입자군 최적화로 CNN 하이퍼파라미터 자동 튜닝
초록
본 논문은 선형 감소 가중치 입자군 최적화(LDW‑PSO)를 이용해 CNN의 핵심 하이퍼파라미터를 자동으로 탐색한다. MNIST와 CIFAR‑10 데이터셋에 적용한 결과, 기존 LeNet‑5 기반 CNN 대비 정확도가 각각 4.9%와 41.3% 상승하였다.
상세 분석
이 연구는 딥러닝 모델 설계 시 가장 큰 난관 중 하나인 하이퍼파라미터 선택 문제를 메타휴리스틱 기법으로 해결하고자 한다. 기존 메타휴리스틱 중 입자군 최적화(PSO)는 전역 탐색 능력과 빠른 수렴 속도에서 유전 알고리즘보다 우수하다는 점이 널리 알려져 있다. 그러나 표준 PSO는 탐색 단계에서 입자들의 속도와 위치 업데이트에 고정된 관성 가중치를 사용하기 때문에, 초기 탐색에서는 과도한 진동을, 후반 수렴 단계에서는 지역 최적에 머무를 위험이 있다. 이를 보완하기 위해 논문에서는 관성 가중치를 선형적으로 감소시키는 LDW‑PSO를 제안한다. 초기에는 큰 관성 가중치를 부여해 탐색 범위를 넓히고, 에포크가 진행될수록 가중치를 감소시켜 수렴 속도를 높인다.
CNN 하이퍼파라미터로는 학습률, 배치 크기, 필터 수, 커널 크기, 풀링 방식, 활성화 함수 등을 포함한다. 이들 파라미터는 서로 복합적인 상호작용을 보이며, 전통적인 그리드 서치나 랜덤 서치로는 탐색 비용이 급격히 증가한다. LDW‑PSO는 입자 하나당 파라미터 벡터를 정의하고, 적합도 함수는 검증 데이터셋에 대한 정확도로 설정한다. 입자들은 각 에포크마다 현재 최적 해(pbest)와 전체 최적 해(gbest)를 참고해 위치를 업데이트한다. 선형 감소 가중치는 관성 항을 조절함으로써 초기에는 다양한 영역을 탐색하고, 후반에는 최적 해 주변을 정밀 탐색하도록 만든다.
실험에서는 두 개의 대표적인 이미지 분류 벤치마크인 MNIST와 CIFAR‑10을 사용하였다. MNIST는 28×28 흑백 이미지 10클래스, CIFAR‑10은 32×32 컬러 이미지 10클래스로, 난이도와 데이터 규모가 크게 차이 난다. 기본 모델은 LeNet‑5 구조를 그대로 사용했으며, LDW‑PSO를 적용한 모델은 동일한 구조이지만 최적화된 하이퍼파라미터를 적용한다. 결과는 에포크 5( MNIST)와 에포크 10(CIFAR‑10)에서 각각 94.02%→98.95%, 28.07%→69.37%의 정확도 향상을 보였다. 특히 CIFAR‑10에서 40% 이상 상승한 점은 하이퍼파라미터 최적화가 모델 성능에 미치는 영향을 강력히 시사한다.
한계점으로는 입자 수와 최대 에포크 설정이 실험마다 다르게 튜닝되어야 하며, 고차원 파라미터 공간에서 계산 비용이 여전히 존재한다는 점이다. 또한, 제안된 LDW‑PSO는 선형 감소 스케줄만을 고려했으므로, 비선형 혹은 적응형 감소 전략과의 비교 연구가 필요하다. 향후 연구에서는 다중 목표 최적화(예: 정확도와 연산량 동시 최적화)와 다른 메타휴리스틱(예: 베이지안 최적화)과의 하이브리드 방식을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기