CW‑SSIM 커널 기반 최근접 이웃으로 손글씨 숫자 분류
본 논문은 복소수 웨이브렛 기반 구조 유사도 지수(CW‑SSIM)를 거리 대신 커널로 활용한 k‑NN 분류기를 제안한다. MNIST 데이터셋에서 5 000~60 000개의 학습 샘플을 사용했을 때, k = 1~10 범위의 이웃 수와 가중치(단순, CW‑SSIM 가중, 지수·가우시안 감쇠 가중)를 조합하면 테스트 오류율을 1.62%까지 낮출 수 있음을 보였다. 특징 추출이나 차원 축소 없이도 높은 정확도를 달성한다는 점이 핵심이다.
저자: Jiheng Wang, Guangzhe Fan, Zhou Wang
본 논문은 손글씨 숫자 인식 문제에 대해 복소수 웨이브렛 기반 구조 유사도 지수(CW‑SSIM)를 거리 대신 커널로 활용한 최근접 이웃(k‑NN) 분류기를 제안한다. 기존 이미지 비교 방법인 평균제곱오차(MSE)와 구조 유사도 지수(SSIM)는 작은 기하학적 변형(이동, 회전, 스케일)에 매우 민감해 실제 이미지 분류에 한계가 있다. CW‑SSIM은 복소수 웨이브렛 변환 후 위상 정보를 이용해 이러한 변형에 강인한 유사도 점수를 제공한다.
논문은 먼저 CW‑SSIM의 수학적 정의와 특성을 소개한다. SSIM은 평균·분산·공분산을 이용해 두 이미지의 구조적 유사성을 측정하지만, 공간 도메인에서는 변형에 취약하다. CW‑SSIM은 복소수 웨이브렛 계수 cₓ, cᵧ를 사용해 위상 차이가 일정하면 구조가 동일하다고 판단한다. 구체적으로, 각 서브밴드의 계수들을 이용해 식 (2) 로 정의된 CW‑SSIM 값은 0~1 사이이며 1에 가까울수록 두 이미지가 동일한 구조를 가진다.
다음으로 k‑NN 알고리즘을 CW‑SSIM 커널과 결합하는 방법을 제시한다. 거리 대신 “유사도”를 사용하므로, 가장 높은 CW‑SSIM 값을 가진 학습 이미지들을 이웃으로 선택한다. k = 1인 경우 가장 유사한 단일 이미지에 의해 라벨이 결정되며, k > 1인 경우 두 가지 투표 방식을 적용한다. 첫 번째는 단순 다수결(가중치 없이)이고, 두 번째는 각 이웃의 CW‑SSIM 점수를 가중치로 사용해 가중 다수결을 수행한다.
실험은 크게 세 단계로 진행된다. ① 시뮬레이션 데이터(2 000개)에서는 1~20개의 이웃을 사용했을 때 훈련 오류가 0%에 가까워, 가장 유사한 몇 개의 이미지만으로도 완벽에 가까운 분류가 가능함을 확인한다. ② MNIST 데이터셋에 대해 5 000, 10 000, 60 000개의 학습 샘플을 각각 사용해 다양한 k값과 가중치 방식을 평가한다. 5 000개 학습·2 000개 테스트에서는 k = 1일 때 오류 3.10%였으며, k = 5~6에서 가중 다수결을 적용하면 2.35%까지 낮아진다. 10 000개 학습·5 000개 테스트에서는 최저 2.93%(k = 4, 가중) 를 기록한다. 60 000개 전체 학습·10 000개 테스트에서는 k = 1일 때 2.18%였고, k = 5~10에서 가중 다수결을 적용하면 1.73% 수준, 가우시안 감쇠 가중을 도입하면 1.62%까지 오류를 감소시킨다.
k값을 고정하기 어려운 상황을 대비해 감쇠 가중 함수를 도입한다. 이때 이웃 순위 i에 따라 가중치 w(i)=exp(−i/σ) 혹은 w(i)=exp(−i²/(2σ²)) 로 정의한다. σ를 조절하면 높은 순위 이웃에 더 큰 가중치를 부여하면서도 낮은 순위 이웃을 완전히 배제하지 않는다. 실험 결과, σ≈21~25 구간에서 가우시안 감쇠가 가장 안정적이며, 최저 오류 1.62%를 달성한다.
계산 복잡도는 학습 이미지와 테스트 이미지 간 CW‑SSIM을 모두 계산해야 하므로 O(N²)이다. 그러나 CW‑SSIM 연산은 복소수 곱셈·덧셈 수준으로 가볍고, GPU 병렬화가 용이해 실용적인 실행 시간이 보장된다.
논문의 한계로는 (1) “노이즈가 많거나 라벨이 애매한” 학습 이미지가 존재할 경우 유사도 기반 분류가 오히려 성능을 저하시킬 수 있다는 점, (2) 대규모 실시간 응용을 위해 근사 최근접 이웃 탐색(예: KD‑tree, LSH)이나 사전 인덱싱이 필요하다는 점을 들었다. 향후 연구 방향은 (i) 학습 샘플 품질 관리 및 “나쁜” 이미지 제거, (ii) 효율적인 근사 CW‑SSIM 검색 구조 설계, (iii) 다른 도메인(의료 영상, 위성 사진 등)으로의 확장 가능성 검증이다.
결론적으로, 복잡한 특징 추출이나 차원 축소 없이도 CW‑SSIM 커널과 간단한 k‑NN을 결합하면 MNIST 수준의 손글씨 인식에서 1.6% 수준의 오류율을 달성할 수 있음을 실증한다. 이는 이미지 유사도 기반 분류기의 잠재력을 재조명하고, 경량화된 실시간 시스템 설계에 유용한 참고 자료가 된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기