일관성 기반 딥 이퀼리브리엄 모델
초록
C‑DEQ는 DEQ의 고정점 탐색 과정을 연속적인 ODE 궤적으로 재구성하고, 그 궤적을 교사로 삼아 중간 상태를 직접 고정점으로 매핑하도록 학습한다. 이를 통해 몇 번의 네트워크 평가만으로도 기존 DEQ와 동등한 정확도를 달성하면서 2‑20배 빠른 추론이 가능하다.
상세 분석
본 논문은 Deep Equilibrium Models(이하 DEQ)의 근본적인 병목인 고정점 탐색 반복을 “고정점 ODE(FP‑ODE)”라는 연속 시간 흐름으로 재해석한다. FP‑ODE는 dz/dt = fθ(z, x) − z 이라는 형태이며, 이 식의 정상 상태가 바로 DEQ의 고정점 z⋆ 과 일치한다. 이 관점을 채택하면, DEQ의 추론 과정을 수치 적분으로 보는 것이 가능해지고, 따라서 “일관성(distillation)”이라는 최신 생성 모델 기법을 적용할 수 있는 명확한 교사 궤적을 정의할 수 있다.
교사 궤적은 Anderson Acceleration(AA)와 같은 고속 고정점 솔버를 이용해 생성한다. AA는 과거 이터레이션을 활용해 초선형 수렴을 보이며, 이를 통해 얻은 K 단계의 중간 상태 {z₀,…,z_K} 는 동일한 초기조건 z₀ = 0 하에 고유한 경로를 만든다. 이렇게 고정된 경로는 “경로 의존성” 문제를 회피하고, 학생 모델이 일관성 매핑 gφ 을 학습하도록 하는 확실한 목표를 제공한다.
학생 모델 gφ는 두 부분으로 구성된다. 첫 번째는 스킵 연결 계수 c_skip(t)와 c_out(t) 을 통해 시간 t 가 최종 시간 T 에 가까워질수록 원래 DEQ 상태 z_t 를 그대로 전달하고, 초기 단계에서는 신경망 Pφ 이 큰 비중을 차지하도록 설계한다. 두 번째는 AA의 구조적 사전 정보를 그대로 활용한다는 점이다. 즉, Pφ 를 AA 업데이트 S_AA 에 삽입하고, hφ 이라는 작은 네트워크가 z_t 와 시간 t 를 입력받아 AA가 요구하는 “가중치 α”를 생성한다. 이렇게 하면 학생 모델은 AA가 이미 제공한 가속된 추정치를 미세 조정하는 역할만 수행하게 되며, 학습 효율과 수렴 안정성이 크게 향상된다.
손실 함수는 전역 일관성(전체 궤적을 고정점에 매핑)과 지역 일관성(인접 이터레이션 간의 매핑 일관성) 두 가지를 결합한다. 전역 손실은 gφ(z_k, t_k, x) 와 z_K (≈ z⋆) 사이의 L2 차이를 최소화하고, 지역 손실은 gφ(z_k, t_k, x) 와 gφ(z_{k+1}, t_{k+1}, x) 간의 차이를 억제한다. 이중 손실 구조는 한 번의 추론 단계만으로도 높은 정확도를 유지하면서, 다단계 추론 시에도 성능이 점진적으로 향상되도록 만든다.
실험에서는 언어 모델링(WikiText‑103), 이미지 분류(ImageNet), 그래프 노드 분류(OGB‑arxiv, OGB‑products) 등 다양한 도메인에서 C‑DEQ를 적용하였다. 동일한 “few‑step” 예산(예: 2~4번의 네트워크 호출) 하에서 기존 DEQ 대비 2‑20배 높은 정확도 향상을 기록했으며, 일부 경우에는 전통적인 유한 깊이 네트워크와도 경쟁 수준을 보였다. 특히, 추론 지연 시간이 크게 감소하면서도 메모리 사용량은 기존 DEQ와 동일하게 유지되는 점이 실용적인 장점으로 강조된다.
요약하면, C‑DEQ는 (1) DEQ를 ODE 궤적으로 재구성해 일관성 학습을 가능하게 함, (2) AA 기반 교사 궤적을 활용해 경로 의존성을 제거, (3) 스킵‑네트워크와 AA‑구조 사전 정보를 결합해 몇 단계만에 고정점을 정확히 예측하도록 설계, (4) 전·지역 일관성 손실로 단일·다중 단계 성능을 동시에 최적화한다는 세 가지 핵심 기여를 제공한다. 이러한 설계는 DEQ의 추론 병목을 근본적으로 해소하고, 암묵적인 무한 깊이 모델을 실제 서비스 환경에 적용할 수 있는 실용적인 길을 연다.
댓글 및 학술 토론
Loading comments...
의견 남기기