입력 맞춤형 모자이크 NAS, MIDAS
초록
MIDAS는 DARTS의 정적 아키텍처 파라미터를 입력‑특정 가중치로 대체하기 위해 패치 단위 셀프‑어텐션을 도입한다. 각 공간 패치를 독립적으로 처리해 로컬 특성에 맞는 연산과 연결을 선택하고, 토폴로지 탐색을 별도 파라미터 없이 어텐션 스코어에 통합한다. NAS‑Bench‑201, DARTS, RDARTS 등 다양한 검색 공간에서 기존 방법들을 앞서며, 특히 CIFAR‑10/100에서 97.42 %·83.38 %의 최고 정확도를 기록한다.
상세 분석
MIDAS는 차별화된 두 가지 핵심 아이디어로 기존 DARTS 기반 차별화 가능한 NAS의 한계를 극복한다. 첫째, 아키텍처 파라미터 α를 전역적인 스칼라가 아니라 입력 이미지의 로컬 특징에 의존하는 동적 가중치로 변환한다. 이를 위해 각 노드가 생성하는 후보 연산들의 출력 맵을 P²개의 비중첩 패치로 분할하고, 각 패치에 대해 평균 풀링 후 얕은 MLP를 통해 키(key)와 쿼리(query)를 생성한다. 쿼리와 키 사이의 도트‑프로덕트에 스케일링 √C를 적용하고 소프트맥스를 취해 패치‑레벨 확률 분포를 얻는다. 이러한 확률은 곧 해당 패치에서 선택될 연산과 입력 연결을 의미한다. 패치 단위 어텐션은 전역 풀링에 비해 공간적 세부 정보를 보존하므로, 특히 초기 셀에서 연산 간 차이를 명확히 구분할 수 있다.
둘째, DARTS가 두 개의 입력 엣지만을 선택하도록 강제하는 토폴로지 제약을 별도 파라미터 β 없이 어텐션 메커니즘에 통합한다. 모든 가능한 (입력, 연산) 쌍을 후보 엣지로 보고, 두 엣지를 동시에 선택하는 경우의 스코어를 키 벡터의 합과 쿼리 벡터의 내적으로 정의한다. 이 스코어를 소프트맥스로 정규화하면 각 엣지 쌍에 대한 확률이 얻어지고, 가장 높은 확률을 가진 두 쌍이 최종 선택된다. 이렇게 하면 토폴로지 탐색이 자동으로 수행되며, 파라미터 오버헤드가 전혀 추가되지 않는다.
학습 단계에서는 기존 DARTS와 동일한 bilevel 최적화를 유지한다. 아키텍처 파라미터를 구성하는 어텐션 네트워크(키·쿼리 MLP)는 노드마다 독립적으로 존재하므로, 파라미터 수는 노드 수에 비례한다. 최적화가 수렴한 뒤에는 여러 학습 샘플에 대해 입력‑특정 확률을 평균해 고정된 아키텍처를 디코딩한다. 평균 과정에서 각 패치의 확률을 이미지‑레벨로 집계하고, 마진을 통해 연산별 확률을 추출한다.
실험 결과는 세 가지 검색 공간에서 일관된 우수성을 보여준다. NAS‑Bench‑201에서는 전역 최적 아키텍처를 거의 매번 찾아내며, DARTS 검색 공간에서는 CIFAR‑10에서 97.42 %의 최고 정확도(기존 최고 97.35 % 이상)와 CIFAR‑100에서 83.38 %를 기록한다. RDARTS의 네 가지 변형 중 두 가지에서는 SOTA를 달성한다. 추가적인 분석에서는 (1) 패치‑단위 어텐션이 연산 간 확률 분포를 더 뚜렷하게 만들고, (2) 입력‑특정 확률이 클래스별로 편향을 보이며 대부분 단일 피크(uni‑modal) 형태를 띠어 디코딩 시 안정성을 제공한다는 점을 제시한다.
한계점으로는 어텐션 연산이 패치 수에 비례해 선형적으로 증가하므로 고해상도 이미지에서 메모리·연산 비용이 늘어날 수 있다. 또한, 입력‑특정 파라미터를 평균해 고정 아키텍처를 만들 때 샘플 선택에 따라 결과가 약간 변동할 가능성이 있다. 향후 연구에서는 효율적인 패치 샘플링 전략과 멀티‑스케일 어텐션을 결합해 메모리 사용을 최소화하고, 입력‑특정 아키텍처를 직접 배포하는 방법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기