CNN 이해를 위한 파동·대칭 이론 탐구

** 이 논문은 합성곱 신경망(CNN)의 수학적 원리를 파동(scattering) 변환과 대칭 이론을 통해 체계적으로 분석한다. 먼저 감독학습 문제를 함수 f를 근사하는 최적화 문제로 정리하고, 입력 X를 변환 Φ(X)한 뒤 선형 모델 h·Φ(X)로 근사하는 전통적인 커널 방법과의 연관성을 제시한다. 그러나 자연 이미지와 같은 복잡한 데이터는 전역적인 대칭(symmetry)을 갖지 않으며, 대신 작은 변환에 대해 불변성을 유지하는 로컬 대칭(local symmetry)이 중요하다. 이를 위해 정의 1·2에서 전역·로컬 대칭을 공식화하고, 이미지 변환 중 핵심적인 평행 이동과 미분동형사상(diffeomorphism)을 다룬다. CNN이 이러한 로컬 변환에 대해 견고하게 동작하려면 피처 Φ가 변환에 대해 Lipschitz 연속성을 만족해야 한다(식 4). 이 조건을 만족시키기 위해 파동 변환이 도입된다. 파동은 스케일 파라미터 s와 위치 파라미터 t를 갖는 모자 파동 ψ_s를 사용해 연속 파동 변환(CWT)을 정의한다. CWT는 시간(또는 이미지 좌표)와 주파수(스케일) 정보를 동시에 포착함으로써, 윈도우드 푸리에 변환이 겪는 불확정성 원리의 한계를 극복한다. Theorem 2에서는 평균 커널 φ_J와 제로 평균 파동 ψ_{j,k}를 결합해 피처 Φ_J(x)(u,j,k)=|x∗ψ_{j,k}|∗φ_J(u) 를 정의한다. 이 피처는 스케일 2^J 수준에서 이동에 로컬 불변이며, 미분동형사상에 대해 정의된 노름(|g|)에 대해 Lipschitz 연속성을 보인다. 평균화 과정에서 고주파 정보가 손실되지만, 다중 스케일 파동 분해를 계층적으로 적용함으로써 손실을 보완한다. 스캐터링 변환은 이러한 아이디어를 구체화한 모델이다. 단일 채널에 고정 파동 ψ_λ와 평균 필터 φ_J를 적용하고, 비선형성 ρ(예: ReLU)를 교대로 삽입해 깊이 J까지 반복한다. 결과적으로 x_J(u,k_J)=S_J

CNN 이해를 위한 파동·대칭 이론 탐구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기