이산 최적화 향상을 위한 분리형 직통 추정기
초록
본 논문은 기존 직통 추정기(STE)가 전방의 확률적 탐색과 후방의 그래디언트 분산을 하나의 온도 파라미터에 묶어 두는 한계를 지적하고, 전방 온도 τ_f와 후방 온도 τ_b를 별도로 제어하는 Decoupled STE를 제안한다. 세 가지 벤치마크(이진 네트워크, 범주형 오토인코더, 미분가능 논리 게이트)에서 τ_f≠τ_b 설정이 최적임을 실험적으로 확인했으며, 기존 Identity STE, Softmax STE, ST‑GS 대비 일관된 성능 향상을 보여준다.
상세 분석
이 논문은 이산 변수 학습에서 두 가지 근본적인 질문을 명확히 구분한다. 첫 번째는 전방 패스에서 얼마나 많은 확률적 탐색을 허용할 것인가이며, 이는 모델이 잠재 공간을 충분히 활용하도록 돕는다. 두 번째는 후방 패스에서 그래디언트를 어떻게 분산시킬 것인가로, 과도하게 집중되면 ‘죽은 카테고리(dead category)’가 발생하고, 과도하게 퍼지면 학습 신호가 약해진다. 기존 STE 변형들은 Softmax STE가 전방·후방을 동일 온도 τ로 제어하고, Identity STE는 전혀 제어하지 않으며, ST‑GS는 전방에 Gumbel 노이즈를 삽입해 탐색을 고정하고 후방 온도만 조절한다는 점에서 두 질문을 독립적으로 다루지 못한다.
Decoupled STE는 전방 샘플링을 τ_f 로 스케일된 softmax(p_f)에서 수행하고, 후방 그래디언트는 별도의 τ_b 로 정의된 softmax(p_b)의 Jacobian J(τ_b)를 통해 전파한다. 수식 (6)에서 볼 수 있듯이 기대 그래디언트는 J(τ_b)ᵀ·E_z
댓글 및 학술 토론
Loading comments...
의견 남기기