효율적인 신경망 구조 탐색을 위한 신기성 기반 원샷 NAS
초록
본 논문은 원샷 NAS에서 슈퍼넷을 학습시키는 샘플링 전략으로 복잡한 보상 기반 컨트롤러 대신 신기성 탐색(Novelty Search)을 도입한다. 단일 경로(single‑path) 슈퍼넷을 사용해 메모리 사용량을 크게 줄이고, 매 단계마다 기존에 방문한 아키텍처와 가장 차별화된 구조를 선택해 학습한다. CIFAR‑10에서 7.5시간(1 GPU)만에 2.51% 오류율을 달성했으며, PTB, ImageNet, WikiText‑2에서도 경쟁력 있는 결과를 보인다.
상세 분석
이 연구는 기존 원샷 NAS가 “공유 가중치 기반 검증 정확도”를 최적화 목표로 삼을 때, 실제 재학습 후 성능과의 상관관계가 낮다는 문제점을 명확히 짚어낸다. 이를 해결하기 위해 두 가지 핵심 설계를 제안한다. 첫째, 메모리 효율성을 위해 단일 경로(supernet) 방식을 채택한다. 전체 검색 공간을 하나의 그래프로 통합하되, 각 학습 스텝에서는 하나의 아키텍처 경로만 활성화해 해당 가중치만 업데이트한다. 이는 전체 슈퍼넷의 파라미터를 한 번에 로드할 필요가 없어 GPU 메모리 요구량을 일반적인 단일 모델 수준으로 낮춘다. 둘째, 아키텍처 샘플링 정책을 ‘신기성’에 기반한다. 기존 RL이나 gradient‑based 컨트롤러는 공유 가중치 검증 정확도를 보상으로 사용하지만, 이는 deceptive reward 문제에 취약하다. 신기성 탐색은 현재 아키텍처와 아카이브에 저장된 k‑nearest 이웃 간의 평균 거리(N(α,A))를 측정해, 가장 높은 신기성을 보이는 구조를 선택한다. 논문에서는 그래프 구조 간 거리 계산 비용을 줄이기 위해 노드‑연산 매트릭스를 이진 벡터화하고, 해시 기반 근사 k‑NN을 활용한다.
실험 결과는 두 가지 관점에서 의미가 있다. 성능 면에서는 CIFAR‑10에서 2.51% 테스트 오류율을 7.5시간 내에 달성했으며, 이는 기존 One‑Shot NAS(수백 GPU‑day)와 비교해 2~3배 빠른 탐색 속도와 동등하거나 우수한 정확도를 보여준다. 또한 PTB 언어 모델링에서 검증 perplexity 60.02, 테스트 perplexity 57.36을 기록해, 이미지와 텍스트 양쪽 도메인에 일반화 가능함을 입증한다. 효율성 면에서는 단일 경로 설계와 신기성 기반 샘플링이 전체 탐색 비용을 크게 감소시켰으며, 아키텍처 선택 단계에서도 무작위 검색 혹은 간단한 진화 알고리즘을 적용해도 충분히 좋은 결과를 얻을 수 있음을 보여준다.
하지만 몇 가지 한계도 존재한다. 신기성 거리 측정에 사용된 임베딩이 실제 성능과 얼마나 연관되는지는 충분히 검증되지 않았으며, k‑NN 파라미터와 아카이브 크기(S) 설정이 결과에 미치는 민감도가 논문에 상세히 보고되지 않았다. 또한 신기성 탐색은 탐색 공간을 고르게 커버하는 데는 유리하지만, 최적에 가까운 고성능 영역을 빠르게 수렴시키는 데는 추가적인 exploitation 메커니즘이 필요할 수 있다. 마지막으로, 제안된 방법은 현재 실험에 사용된 셀 기반 검색 공간에 최적화돼 있어, 보다 복잡한 네트워크 토폴로지(예: 비셀형 구조, 멀티‑스케일 모듈)에는 직접 적용이 어려울 가능성이 있다. 향후 연구에서는 신기성 측정 방법을 학습 가능한 메트릭으로 대체하고, 탐색‑활용 균형을 조절하는 하이브리드 정책을 도입함으로써 이러한 제한을 극복할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기