복소수 기반 딥러닝, 새로운 가능성 열다
초록
본 논문은 복소수 연산을 이용한 딥 뉴럴 네트워크의 핵심 빌딩 블록을 제시하고, 이를 복소수 컨볼루션, 복소수 배치 정규화, 복소수 가중치 초기화, 그리고 여러 복소수 활성화 함수와 결합한다. 제안된 모델을 이미지 분류(CIFAR‑10/100, SVHN*), 음악 전사(MusicNet) 및 음성 스펙트럼 예측(TIMIT) 등에 적용해 실험했으며, 실험 결과 복소수 모델이 동일한 규모의 실수 기반 모델과 경쟁하거나 일부 태스크에서 최고 성능을 달성함을 보여준다.
상세 분석
이 논문은 복소수값 신경망이 실수값 네트워크에 비해 표현력과 학습 안정성에서 잠재적인 이점을 가진다는 기존 연구들을 체계적으로 검증한다. 먼저 복소수 데이터를 실수 텐서 두 개(실수부와 허수부)로 표현함으로써 기존 딥러닝 프레임워크와의 호환성을 확보한다. 복소수 컨볼루션은 실제와 허수 필터를 각각 실수 컨볼루션으로 수행한 뒤, (A∗x−B∗y) + i(B∗x+A∗y) 형태로 결합한다. 이는 연산량이 실수 네트워크와 동일하거나 약간 증가하지만, 복소수 곱셈이 제공하는 회전·스케일 변환을 자연스럽게 학습한다는 장점이 있다.
역전파를 위해서는 비용 함수와 활성화가 실수·허수 각각에 대해 미분 가능해야 한다. 저자는 전통적인 전 holomorphic(전미분가능) 제한을 완화하고, 실수·허수 부분에 대해 개별적으로 미분 가능한 비전미분함수들을 허용한다. 구체적으로 modReLU, CReLU, zReLU 등 세 종류의 복소수 활성화 함수를 제안한다. modReLU는 크기(|z|)에 ReLU를 적용하고 위상은 그대로 유지해 위상 정보를 보존한다. CReLU는 실수와 허수에 각각 ReLU를 적용하는 가장 직관적인 방법이며, zReLU는 위상이 0~π/2 구간에 있을 때만 값을 통과시켜 위상 선택적 필터링을 수행한다. 각 함수는 Cauchy‑Riemann 방정식을 만족하거나 부분적으로 만족하도록 설계돼, 학습 효율과 표현력을 트레이드오프한다.
복소수 배치 정규화는 단순히 평균·분산을 맞추는 것이 아니라, 2차원(실수·허수) 벡터의 공분산 행렬을 화이트닝하는 방식으로 구현한다. 이는 데이터가 원형(회전 대칭) 분포를 갖도록 보장해, 학습 초기에 스케일과 회전 편향이 누적되는 것을 방지한다. 구현상으로는 실수·허수 부분을 하나의 2×2 공분산 행렬로 묶고, 그 고유값·고유벡터를 이용해 정규화 변환을 적용한다.
가중치 초기화는 복소수 정규분포를 따르도록 설계했으며, 실수와 허수 부분을 독립적으로 초기화하면서 전체 복소수 가중치의 분산이 층 깊이에 따라 적절히 스케일링되도록 한다. 이는 Xavier/He 초기화 원리를 복소수 공간에 확장한 것으로, 기울기 소실·폭발을 완화한다.
실험에서는 동일한 아키텍처(ResNet‑like 블록)를 복소수 버전과 실수 버전으로 구현해 비교했다. 이미지 분류에서는 CIFAR‑10/100과 SVHN*에서 복소수 모델이 약 0.30.5% 정도의 정확도 향상을 보였으며, 파라미터 수는 거의 동일했다. 음악 전사에서는 MusicNet 데이터셋에서 F1‑score가 기존 최첨단 실수 모델보다 23% 상승했으며, 특히 고음역대와 복잡한 악기 조합에서 강건함을 나타냈다. 음성 스펙트럼 예측(TIMIT)에서도 로그 스펙트럼 손실이 실수 모델보다 유의미하게 낮았다.
또한, 활성화 함수별 Ablation 실험을 통해 modReLU가 가장 높은 성능을 기록했지만, CReLU와 zReLU도 특정 태스크(예: 위상 정보가 중요한 음성)에서 경쟁력을 보였다. 배치 정규화와 가중치 초기화가 없을 경우 학습이 불안정해지는 현상이 관찰됐으며, 이는 복소수 네트워크가 정규화와 초기화에 특히 민감함을 시사한다.
전체적으로 이 논문은 복소수 딥러닝을 실용화하기 위한 핵심 요소들을 체계적으로 정리하고, 다양한 실세계 태스크에서 그 효용성을 입증함으로써 복소수 신경망이 앞으로 비전·오디오·시계열 분야에서 새로운 연구 흐름을 이끌 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기