진화형 신경망 구조 탐색을 위한 이중 대조 학습

초록

진화형 신경망 구조 탐색(ENAS)은 자동으로 신경망 아키텍처를 설계하는 데 주목받고 있다. 최근 연구들은 탐색 과정을 안내하기 위해 신경 예측기를 활용하지만, 각 아키텍처에 대해 완전 학습을 수행해야 라벨을 얻을 수 있기 때문에 학습 데이터 확보에 드는 계산 비용이 매우 크다. 제한된 예산(즉, 제한된 수의 완전 학습된 아키텍처‑라벨 쌍) 내에서 고정밀 예측기를 만드는 것이 ENAS 성공의 핵심이다. 본 논문은 두 단계의 대조 학습을 이용해 신경 예측기를 훈련시키는 새로운 방법인 DCL‑ENAS를 제안한다. 첫 번째 단계에서는 라벨 없이 신경망 아키텍처의 의미 있는 표현을 학습하기 위해 대조 자기지도 학습을 적용한다. 두 번째 단계에서는 상대적인 성능을 예측하도록 예측기를 미세조정하는데, 이는 절대 성능을 예측하는 것보다 진화적 탐색을 이끌기에 충분하다. NASBench‑101 및 NASBench‑201에서 DCL‑ENAS는 검증 정확도에서 가장 높은 점수를 기록했으며, 가장 강력한 기존 베이스라인보다 ImageNet16‑120에서는 0.05 %, NASBench‑101에서는 0.39 % 향상하였다. 실제 ECG 부정맥 분류 작업에서는 무작위 탐색으로 만든 수동 설계 모델보다 약 2.5 %p 높은 성능을 달성했으며, GPU 사용량은 7.7 GPU‑day에 불과했다.

상세 요약

이 논문은 ENAS(진화형 신경망 구조 탐색)의 핵심 병목 현상인 ‘라벨링 비용’ 문제를 혁신적으로 해결하고자 한다. 전통적인 ENAS는 후보 아키텍처마다 전체 학습을 수행해 정확도를 라벨로 사용한다. 이러한 방식은 탐색 공간이 방대할 경우 계산 자원이 급격히 소모돼 실용적인 적용에 한계가 있다. 저자들은 이 문제를 두 단계의 대조 학습(Contrastive Learning)으로 접근한다. 첫 단계인 ‘대조 자기지도 학습(Contrastive Self‑Supervised Learning)’에서는 아키텍처를 그래프 혹은 시퀀스 형태로 인코딩하고, 동일 아키텍처의 변형(예: 노드 순서 교환, 연산자 교체)과 다른 아키텍처를 구분하도록 학습한다. 이 과정에서 라벨이 전혀 필요 없으며, 아키텍처 간 구조적 유사성을 반영한 고차원 임베딩을 얻는다. 두 번째 단계에서는 이렇게 학습된 임베딩을 기반으로 ‘상대 성능 예측(Relative Performance Prediction)’을 수행한다. 절대 정확도를 예측하는 대신, 두 아키텍처 중 어느 쪽이 더 우수한지를 판단하도록 대조 손실을 설계한다. 이는 진화 연산에서 ‘우수한 후보’를 선택하는 데 충분히 정확하면서도 라벨링 비용을 크게 절감한다.

예측기의 학습 효율성을 검증하기 위해 저자들은 NASBench‑101과 NASBench‑201이라는 공개 벤치마크를 사용하였다. 두 데이터셋 모두 모든 가능한 아키텍처에 대한 정확도가 사전 계산돼 있어, 제한된 라벨 수(예: 500~1000쌍)만으로도 예측기의 일반화 능력을 평가할 수 있다. 실험 결과, DCL‑ENAS는 기존 최첨단 방법들(예: NAS‑Predictor, BANANAS 등)보다 검증 정확도에서 0.05 %~0.39 % 향상을 달성했으며, 특히 이미지 분류와 같은 복잡한 태스크에서도 일관된 우위를 보였다.

또한 실제 의료 데이터인 ECG 부정맥 분류에 적용해, 무작위 탐색 기반 수동 설계 모델 대비 약 2.5 %p(percentage points) 높은 정확도를 기록했다. 이때 사용된 GPU‑day는 7.7에 불과해, 기존 ENAS 방식에 비해 약 5배 이상 효율적인 것으로 평가된다.

이 연구의 주요 강점은 (1) 라벨이 전혀 없는 단계에서 의미 있는 아키텍처 표현을 학습함으로써 데이터 효율성을 극대화한 점, (2) 상대 성능 예측이라는 실용적인 목표에 맞춰 손실 함수를 설계해 진화적 선택 과정에 직접적인 이득을 제공한 점, (3) 다양한 벤치마크와 실제 응용 사례에서 일관된 성능 향상을 입증한 점이다. 반면 한계점으로는 대조 학습을 위한 변형 전략이 아키텍처 종류에 따라 최적화가 필요할 수 있다는 점, 그리고 현재 실험이 주로 이미지와 시계열 데이터에 국한돼 있어 자연어 처리 등 다른 도메인에 대한 일반화 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 변형 생성 정책을 자동화하고, 멀티‑모달 혹은 대규모 실세계 데이터셋에 대한 확장성을 탐색하는 것이 기대된다.

초록

상세 요약

📜 논문 원문 (영문)