측면 연결을 활용한 잡음 제거 오토인코더, 지도 학습 성능 향상
초록
본 논문은 측면(lateral) 연결을 갖는 깊은 잡음 제거 오토인코더를 지도 학습과 동시에 학습시키는 방법을 제안한다. 두 비용(지도 손실과 재구성 손실)을 합한 목표함수를 역전파로 최적화함으로써 층별 사전학습 없이도 높은 일반화 성능을 달성한다. MNIST 퍼뮤테이션 불변 분류에서 η=500인 보조 손실 가중치를 사용했을 때 테스트 오류 0.68%를 기록, 기존 최고 기록을 크게 앞섰다.
상세 분석
이 연구는 기존의 잡음 제거 오토인코더(Denoising Autoencoder, DAE)와 달리, 각 인코더 층과 대응되는 디코더 층 사이에 측면 연결을 도입한다. 측면 연결은 동일 위치의 뉴런끼리 직접 정보를 전달하도록 설계돼, 고차원 층이 모든 세부 정보를 보존해야 하는 부담을 완화한다. 결과적으로 상위 층은 보다 추상적인 특징을 학습하고, 하위 층은 세밀한 정보를 디코더에 직접 전달한다는 구조적 이점을 갖는다.
논문은 이러한 구조가 전통적인 DAE가 선호하는 ‘동일 크기 층’과는 달리 피라미드 형태(하위 층이 넓고 상위 층이 좁은) 설계와 자연스럽게 맞물린다고 주장한다. 이는 지도 학습에서 흔히 관찰되는 “특징 압축”과 일치한다.
모델 구현에서는 인코더를 다층 퍼셉트론(MLP)으로 두고, 최상위 인코더 출력 (h^{(L)})를 바로 클래스 예측 (y)에 연결한다. 각 층의 전활성값 (z^{(l)})은 배치 정규화와 ReLU(또는 소프트맥스) 비선형을 거치며, 입력에 가우시안 노이즈 (\tilde{x}=x+n)를 추가해 일반화 효과를 높인다.
디코더는 **수식 (2)**에서 제시된 복합 함수로 구현된다. 수평 연결을 통해 전달된 (z^{(l)})와 상위 디코더 출력 (\hat{z}^{(l+1)})를 변환한 (u^{(l)})를 결합해 (\hat{z}^{(l)})를 계산한다. 여기서 파라미터 (a_{ij})는 (c_{ij}u_i + d_{ij}) 형태로, 상위 층의 정보를 동적으로 조절한다. 이 설계는 단순한 선형 결합을 넘어 조절(modulated) 연결을 구현하며, 다양한 확률분포(초가우시안, 다중 피크 등)를 모델링할 수 있게 한다.
학습 목표는 두 손실의 가중합 (C = C_{\text{class}} + \eta C_{\text{reconst}})이다. (C_{\text{class}})는 교차 엔트로피, (C_{\text{reconst}})는 평균 제곱 오차이며, (\eta)는 보조 손실의 비중을 조절한다. (\eta=0)이면 순수 지도 학습, (\eta>0)이면 잡음 제거가 동시에 진행된다.
실험에서는 MNIST 데이터를 50 000/10 000(학습/검증)으로 나누고, 10번의 랜덤 시드 평균을 보고한다. 두 가지 네트워크 구조(784‑1000‑500‑10, 784‑1000‑500‑250‑250‑250‑10) 중 후자를 채택했으며, 입력 노이즈 표준편차 (\sigma=0.3)이 최적이었다. Adam 옵티마이저와 학습률 선형 감소 스케줄을 사용해 100 epoch 학습했다.
결과는 (\eta)에 대한 민감도 분석에서 보조 손실 가중치 (\eta=500)이 가장 낮은 검증 오류를 제공함을 보여준다. 해당 설정으로 10번 반복한 테스트 오류 평균은 0.68 %(표준편차 약 0.02)이며, 이는 기존 최고 기록인 0.78 %를 크게 앞선다. 순수 지도 학습((\eta=0))에서는 0.89 %의 오류가 발생해, 보조 잡음 제거가 일반화에 미치는 긍정적 효과를 명확히 입증한다.
관련 연구와 비교했을 때, MP‑DBM 등 복잡한 변분 추론을 필요로 하는 방법과 달리 제안 모델은 단일 패스 피드포워드만으로 학습이 가능하고, 파라미터 수는 인코더와 디코더가 대체로 대칭이므로 크게 증가하지 않는다. 또한 배치 정규화와 노이즈 주입만으로도 과적합 방지 효과가 충분히 나타난다.
논문은 향후 z‑층에 대한 추가 노이즈, 층별 재구성 손실 도입, 대규모 데이터셋, 반지도 학습, 합성곱 신경망 적용 등을 통해 확장 가능성을 제시한다. 현재 진행 중인 연구에서는 이러한 변형이 더 높은 복잡도 문제에서도 비슷한 이점을 제공할지 탐색 중이다.
요약하면, 측면 연결을 갖는 DAE를 지도 학습과 동시에 최적화함으로써, 특징 압축과 세부 정보 보존을 동시에 달성하고, 간단한 구현과 빠른 수렴 속도에도 불구하고 기존 최첨단 성능을 뛰어넘는 결과를 얻었다는 점이 가장 큰 공헌이다.
댓글 및 학술 토론
Loading comments...
의견 남기기