배치 정규화와 쉐이크 쉐이크가 만든 대칭적 감정 표현 학습

본 논문은 스피치 감정 인식에서 다중 브랜치 구조인 Shake‑Shake 정규화를 적용하면서, 배치 정규화와의 상호작용을 분석한다. 저자는 Shake‑Shake가 Vicinal Risk Minimization(VRM) 원리와 검증(task)용 임베딩 학습 사이의 차이를 메우고, 배치 정규화가 포함된 잔차 블록과 배치 정규화된 순환 신경망이 동일한 수렴 특성을 보이며 과적합을 유발한다는 점을 발견한다. 적절한 배치 정규화 초기화와 서브‑밴드 쉐이…

저자: Che-Wei Huang, Shrikanth S. Narayanan

본 논문은 “Normalization Before Shaking Toward Learning Symmetrically Distributed Representation Without Margin in Speech Emotion Recognition”이라는 제목 아래, 딥러닝 모델의 정규화 기법 중 특히 다중 브랜치 구조인 Shake‑Shake 정규화와 배치 정규화(Batch Normalization, BN)의 상호작용을 심층적으로 탐구한다. 연구 배경으로는 데이터가 제한된 상황에서 과적합을 방지하기 위한 전통적 정규화(가중치 감쇠, 드롭아웃) 외에, 다중 브랜치 아키텍처가 제공하는 모델 기반 데이터 증강이 주목받고 있음을 제시한다. 특히 Shake‑Shake와 ShakeDrop 같은 기법은 이미지 분류에서 뛰어난 성능을 보였지만, 왜 이러한 정규화가 분류 정확도를 향상시키는지, 그리고 BN과의 관계가 왜 중요한지는 아직 명확히 밝혀지지 않았다. 논문은 크게 네 부분으로 구성된다. 첫 번째는 관련 연구 정리로, Shake‑Shake와 그 변형(서브‑밴드 쉐이킹, Stochastic Shake‑Shake), 얼굴 검증을 위한 대칭적 임베딩 학습(large‑margin Softmax, SphereFace, CosFace, ArcFace, Centralized Coordinate Learning) 그리고 Vicinal Risk Minimization(VRM)과 Mixup, Manifold Mixup 같은 데이터 증강 기법을 소개한다. 여기서 저자는 분류와 검증 과제 사이에 “마진”에 대한 요구가 상반된다는 점을 강조한다. 두 번째는 Shake‑Shake 정규화의 수학적 정의와 구현 세부 사항이다. 3‑branch ResNeXt 구조에서 각 브랜치 출력에 α와 β라는 무작위 스칼라를 곱해 순전파와 역전파를 각각 섞는다. α와 β는

배치 정규화와 쉐이크 쉐이크가 만든 대칭적 감정 표현 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기