아키텍처 벡터 양자화: 이산 표현 학습과 자동회귀 사전 모델링
초록
본 논문은 신경망 구조 탐색(NAS)에서 연속형 잠재공간 대신 벡터 양자화(VQ‑VAE)를 이용해 이산 잠재공간을 학습하고, 이를 자동회귀 트랜스포머로 모델링한다. NASBench‑101, NASBench‑201, DARTS 세 검색공간에서 기존 VAE 기반 방법보다 유효하고 고유한 아키텍처 생성 비율을 크게 향상시켰으며, 다운스트림 성능 예측에서도 이득을 보였다.
상세 분석
Arch‑VQ는 기존 NAS 분야에서 주로 사용되던 연속형 변분 오토인코더(VAE) 접근법의 근본적인 한계를 지적한다. 신경망 아키텍처는 본질적으로 그래프 형태의 이산 구조와 카테고리형 연산 집합으로 이루어져 있기 때문에, 연속형 가우시안 사전분포에 매핑하면 샘플링 단계에서 무효 혹은 중복 아키텍처가 다수 발생한다. 이를 해결하기 위해 저자는 두 가지 핵심 설계를 제안한다. 첫째, 그래프 이소몰피즘 네트워크(GIN)를 기반으로 한 인코더‑디코더 구조에 벡터 양자화 모듈을 삽입해, 각 아키텍처를 고정된 크기의 코드북 인덱스 시퀀스로 변환한다. 이 과정에서 EMA(Exponential Moving Average) 업데이트를 활용해 코드북을 안정적으로 학습하고, 스트레이트‑스루 추정기로 양자화 단계의 미분 가능성을 확보한다. 둘째, 이렇게 얻어진 이산 시퀀스를 시작·종료 토큰과 함께 텍스트 형태로 변환한 뒤, 디코더 전용 트랜스포머를 사용해 다음 토큰을 예측하는 자동회귀 언어 모델을 학습한다. 이 설계는 표현 학습과 사전 모델링을 명확히 분리함으로써, 사전 모델이 복잡한 그래프 구조를 직접 다루지 않아도 되게 만든다.
실험에서는 NASBench‑101(423k 아키텍처), NASBench‑201(15,625 아키텍처), DARTS(무작위 600k 샘플) 세 데이터셋에 대해 동일한 90/10 학습‑검증 분할을 적용하였다. 평가 지표는 재구성 정확도, 유효성, 고유성, 신규성(학습에 포함되지 않은 아키텍처 비율)이며, 고유성·신규성은 유효성에 조건부로 계산된 절대값도 보고한다. 결과는 Arch‑VQ가 기존 VAE 기반 방법 대비 유효·고유 샘플 비율을 각각 22 %, 26 %, 135 % 향상시켰으며, 특히 DARTS와 같은 복잡한 검색공간에서 가장 큰 개선을 보였다. 또한 온도 조절을 통해 탐색과 활용 사이의 트레이드오프를 제어할 수 있었고, 생성된 이산 임베딩을 활용한 신경망 성능 예측 모델(NAS‑Predictor)의 정확도도 기존 연속형 임베딩 대비 유의미하게 상승했다.
이 논문의 주요 기여는 (1) 신경망 아키텍처에 최초로 VQ‑VAE 기반 이산 잠재공간을 도입한 점, (2) 이산 코드 시퀀스를 자동회귀 트랜스포머로 모델링함으로써 효율적인 아키텍처 생성 파이프라인을 구축한 점, (3) 다양한 벤치마크에서 생성 품질과 다운스트림 예측 성능을 동시에 개선한 실증적 증거를 제공한 점이다. 한계로는 코드북 크기(K)와 임베딩 차원(D) 선택이 성능에 민감할 수 있으며, 현재는 셀 기반 작은 그래프에 초점을 맞추었기 때문에 대규모 전체 네트워크 설계로 확장할 때 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기