다층 퍼셉트론을 활용한 이미지 노이즈 제거 학습 전략과 메커니즘 분석
초록
본 논문은 다층 퍼셉트론(MLP)을 이용한 이미지 노이즈 제거 방법의 학습 과정에서 발생하는 여러 트레이드오프를 체계적으로 정리하고, 숨겨진 유닛의 활성화 패턴을 분석함으로써 MLP가 어떻게 노이즈를 억제하고 원본 구조를 복원하는지를 밝힌다.
상세 분석
본 연구는 이미지 복원을 위한 함수 근사 문제를 고차원 비선형 매핑으로 모델링한다. 저자들은 입력 패치 크기, 은닉층 수, 뉴런 수, 학습 데이터 양, 학습률, 정규화 기법 등 7가지 주요 하이퍼파라미터를 실험적으로 탐색하였다. 첫 번째 트레이드오프는 입력 패치의 공간적 범위와 모델 복잡도 사이의 균형이다. 큰 패치를 사용하면 전역적인 구조 정보를 활용할 수 있어 복원 품질이 향상되지만, 파라미터 수가 급증해 과적합 위험과 메모리 요구량이 크게 늘어난다. 반면 작은 패치는 학습이 빠르고 메모리 효율적이지만, 텍스처와 경계 정보를 충분히 포착하지 못한다. 두 번째는 은닉층 깊이와 폭의 선택이다. 34개의 은닉층에 각각 20484096개의 뉴런을 배치했을 때, 비선형 표현력이 충분히 확보돼 다양한 잡음 유형에 대해 강인한 성능을 보였다. 그러나 층이 깊어질수록 기울기 소실 문제가 발생해 학습이 불안정해졌다. 이를 완화하기 위해 가중치 초기화를 He 방식으로 설정하고, 배치 정규화를 부분적으로 적용하였다. 세 번째는 학습 데이터의 다양성이다. 저자들은 400만 개 이상의 자연 이미지 패치를 수집했으며, 각 이미지에 다양한 잡음 레벨과 유형을 합성함으로써 모델이 잡음 통계에 과도하게 의존하지 않도록 설계했다. 특히 Poisson‑Gaussian 혼합 잡음과 JPEG 압축 아티팩트에 대해 별도 데이터 증강을 수행해 일반화 성능을 크게 끌어올렸다. 네 번째는 손실 함수 선택이다. 단순 L2 손실 대신 구조적 유사도(SSIM)와 결합한 복합 손실을 도입해 시각적 품질을 개선했으며, 이는 특히 고주파 텍스처 복원에 유리했다. 다섯 번째는 학습률 스케줄링으로, 초기에는 큰 학습률(1e‑3)로 빠르게 수렴시키고, 50 epoch 이후에 10배 감소시키는 단계적 감소 방식을 사용했다. 이는 최적점 근처에서 미세 조정을 가능하게 하여 PSNR 향상을 가져왔다. 마지막으로 활성화 패턴 분석에서는 대부분의 은닉 유닛이 입력 패치의 특정 주파수 대역에 민감하게 반응한다는 점을 발견했다. 특히 초기 층은 저주파 성분을, 후반 층은 고주파 에지와 텍스처를 강조하는 특성을 보였으며, ReLU 활성화가 희소성을 유도해 잡음 성분을 자연스럽게 억제한다는 결론에 도달했다. 이러한 분석은 MLP가 전통적인 필터 기반 방법과 달리 데이터‑드리븐 방식으로 잡음과 신호를 구분한다는 메커니즘을 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기