모델 기반 검색을 넘어: 지식 직조로 정교한 신경망 설계 마스터하기
초록
본 논문은 기존 NAS와 모델 검색이 갖는 효율·성능 딜레마를 해소하기 위해, 과거 작업들의 미세 구조 수정 효과를 “편집‑효과 증거”로 정형화하고 이를 그래프 형태로 저장한다. 동적 검색‑보강 프레임워크 M‑DESIGN은 베이지안 기반의 작업 유사도 belief를 실시간 업데이트하며, 1‑hop 증거가 부족한 OOD 상황에서는 다중‑hop 예측 플래너로 이득을 추정한다. 67,760개의 GNN 모델을 포함한 대규모 지식베이스 위에서 수행된 실험에서, 제한된 예산 하에 33개 실험 중 26개에서 최적 성능을 달성하였다.
상세 분석
이 논문은 신경망 설계 문제를 “모델 재검색”이 아닌 “편집‑효과 증거 기반의 순차적 수정”으로 재정의한다. 핵심 아이디어는 각 작업에 대해 아키텍처 변형(θ → θ′)이 가져오는 성능 차이를 엣지 가중치로 저장한 ‘아키텍처 수정‑이득 그래프’를 구축하는 것이다. 이렇게 하면 개별 모델이 아니라 변형 자체가 재사용 가능해져, 서로 다른 작업 간에 동일한 변형이 동일한 이득을 제공한다는 가정 하에 전이 학습이 가능해진다.
M‑DESIGN은 두 가지 주요 난관을 해결한다. 첫째, 수정 과정에서 전이 가능성이 시간에 따라 변한다는 점이다. 초기 작업 유사도는 고정된 메트릭(랭킹, 임베딩, LLM 기반)으로 계산되지만, 실제 수정을 진행하면서 관측된 이득이 기존 믿음과 불일치하면 베이지안 업데이트를 통해 유사도 belief Sₜ(Dᵤ, Dᵢ)를 조정한다. 이는 “동적 작업 유사도”라 불리며, 특정 작업에 대한 전이 신뢰도를 실시간으로 낮추거나 높인다.
둘째, OOD 상황에서 1‑hop 증거가 부족하거나 오염될 경우다. 저자는 다중‑hop 증거를 추론하기 위한 ‘예측 작업 플래너’를 도입한다. 이 플래너는 그래프 신경망 기반으로 기존 변형‑이득 관계를 학습하고, 관측되지 않은 변형 경로에 대한 기대 이득을 예측한다. 따라서 제한된 레포지토리에도 불구하고 탐색 공간을 효과적으로 확장할 수 있다.
수학적으로는 기대 이득 E
댓글 및 학술 토론
Loading comments...
의견 남기기