계층별 점진적 동결로 STE 없이 깊은 이진 신경망 학습
초록
본 논문은 STE(직통 추정기)를 사용하지 않고 이진 신경망을 학습하기 위한 새로운 방법인 StoMPP를 제안한다. 층별 점진적 동결과 확률적 마스킹을 결합해 가중치와 활성화를 단계적으로 이진화하고, 동결되지 않은 부분만 역전파한다. 실험 결과, ResNet‑18·50 등 깊은 모델에서 기존 BinaryConnect 기반 STE보다 크게 향상된 정확도를 달성한다.
상세 분석
StoMPP는 두 가지 핵심 메커니즘으로 구성된다. 첫째, 마스크 M을 이용해 각 파라미터를 ‘동결(이진)’ 혹은 ‘미동결(연속)’ 상태로 구분한다. 연속 상태에서는 clip 함수를, 동결 상태에서는 sign 함수를 적용하지만, 역전파에서는 연속 부분에만 미분값을 전달하고 동결된 부분은 0으로 처리한다. 이는 STE가 전방 연산과 역방 연산을 인위적으로 맞추는 방식과 달리, 실제 연산과 동일한 그래디언트를 사용한다는 점에서 근본적인 차이를 만든다. 둘째, 층별 점진적 동결 스케줄을 도입한다. 전체 네트워크를 입력‑출력 순서대로 ‘동결된 프리픽스’, ‘전이 중인 레이어’, ‘미동결된 서픽스’로 구분하고, 전이 레이어만 일정 비율(p)로 마스크를 업데이트한다. 이때 마스크는 매 스텝마다 전체의 1/r 비율만 새로 샘플링해 재설정하는 ‘소프트 리프레시’를 적용한다. 이렇게 하면 전이 레이어가 완전히 이진화되기 전까지는 뒤쪽의 연속 레이어가 그래디언트 흐름을 유지해 학습이 정체되지 않는다. 반면 전역 마스킹 방식은 임의 깊이에 이진 활성화가 삽입되면 그 이후 경로의 그래디언트가 차단돼 학습이 실패한다는 ‘활성화‑유도 그래디언트 차단’ 현상을 확인하였다. 실험에서는 cubic 스케줄(p(τ) = (τ/T)^3)과 r=100을 기본값으로 사용했으며, 다양한 p와 r 조합을 통해 안정성과 탐색성 사이의 트레이드오프를 분석했다. 결과적으로 깊은 네트워크일수록 StoMPP의 이점이 크게 나타났으며, ResNet‑50 BNN에서 CIFAR‑10/100, ImageNet 모두 STE 대비 각각 +18.0, +13.5, +3.8%p의 정확도 향상을 기록했다. 또한 이진 가중치 네트워크(BWN)에서도 91.2%/69.5%라는 높은 정확도를 달성했다. 중요한 점은 StoMPP가 별도의 가중치 감쇠나 복잡한 학습률 스케줄 없이도 최소한의 레시피(기본 SGD, 고정 학습률)만으로도 기존 STE 기반 방법을 능가한다는 것이다. 이는 STE가 가져오는 근사 오차와 깊이 증가에 따른 불안정성을 근본적으로 회피한 결과라 할 수 있다. 마지막으로 StoMPP는 Bi‑Real Net 등 기존 BNN 구조와도 호환 가능함을 보였으며, 향후 더 복잡한 아키텍처와 결합해 추가적인 성능 향상이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기