혼합 노름 제약을 이용한 딥 빌리프 네트워크의 희소성 강화

본 논문은 딥 빌리프 네트워크(DBN)의 핵심 구성 요소인 제한 볼츠만 머신(RBM)에 혼합 ℓ₁,₂ 노름 정규화를 적용해 은닉 유닛을 그룹 단위로 희소화하는 새로운 방법론을 제시한다. 먼저 RBM의 기본 구조와 에너지 기반 확률 모델링을 소개하고, 전통적인 대조 발산(Contrastive Divergence, CD) 학습 절차와 그 한계를 설명한다. 이어서 저자는 은닉 유닛을 동일 크기의 비중첩 그룹 또는 일정 비율로 중첩된 그룹으로 나누고, 각 그룹에 대해 ℓ₂ 노름을 계산한 뒤 이를 ℓ₁ 로 합산하는 혼합 노름 ‖·‖₁,₂ 를 정규화 항으로 추가한다. 이 정규화는 그룹 전체가 동시에 0에 가까운 활성화를 보이게 함으로써 “그룹 수준의 희소성”을 강제한다. 수식 (12)에서 전체 손실 함수는 L = –log p(x) + λ ‖p(h=1|x)‖₁,₂ 로 정의되며, λ는 정규화 강도를 조절한다. 비중첩 그룹은 은닉 유닛을 겹치지 않게 나누어 각 그룹이 독립적으로 희소화되도록 하고, 중첩 그룹은 동일 유닛이 여러 그룹에 포함되도록 설계해 복합적인 희소성 효과를 만든다. 정규화 항의 미분을 통해 가중치와 편향에 대한 업데이트 식(16, 17)을 도출하고, 기존 CD‑k(주로 k=1)와 결합한 두 단계 학습 알고리즘을 제시한다. 알고리즘 1은 (1) CD 기반 파라미터 업데이트, (2) 혼합 노름 정규화에 의한 추가 업데이트, (3) 수렴까지 반복하는 절차를 명시한다. 실험은 세 가지 손글씨 숫자 데이터셋(MNIST, USPS, RIMES)에서 수행되었다. 각 데이터셋은 28×28 크기로 통일하고, 전처리는 최소화하였다. 사전 학습 단계에서는 500‑500‑2000 구조의 DBN을 구성하고, 기존 RBM 대신 제안된 Mixed Norm RBM(MNRBM)을 사용했다. 최종 분류 단계에서는 10‑class softmax와 컨쥐게이트 그래디언트 미세조정을 적용했다. 정규화 상수 λ는 모든 실험에서 0.1로 고정했으며, 비중첩 그룹은 크기 5, 10, 20, 100을, 중첩 그룹은 크기 20·50에 중첩 비율 20 %·50 %를 적용했다. 결과 분석은 두 가지 관점에서 이루어진다. 첫째, 정확도 측면에서는 비중첩 그룹이 클수록(특히 20, 100) 기존 DBN과 동등하거나 약간 높은 정확도(≈98 %~99 %)를 달성했다. 반면 중첩 그룹은 활성화를 과도하게 0에 가깝게 압축해 정확도가 85 %~95 % 수준으로 떨어졌다. 이는 중첩 구조가 모델의 표현력을 제한하기 때문으로 해석된다. 둘째, 연산 비용 측면에서는 CPU 시간표(표 2)에서 비중첩 그룹이 작을수록(5, 10) 학습 시간이 크게 늘어나고, 중첩 그룹은 중첩 비율이 높을수록(50 %) 연산량이 감소함을 확인했다. 즉, 그룹 크기와 중첩 비율을 적절히 조절하면 정확도와 효율성 사이의 트레이드오프를 조절할 수 있다. 시각 피질의 희소성 메커니즘을 모방한다는 생물학적 동기와, 통계적 차원 축소 및 과적합 방지 효과를 동시에 제공한다는 점에서 이 접근법은 의미가 크다. 저자는 향후 연구 방향으로 비대칭 중첩 그룹, 데이터 특성에 맞는 그룹 형태(예: 공간적 인접성 기반 그룹) 등을 탐색하고, 다른 비전 과제(예: 장면 분류)에도 적용해볼 것을 제안한다. 전체적으로, 혼합 노름을 이용한 그룹 수준 희소성 정규화는 DBN의 사전 학습 단계에서 효과적인 구조적 제약을 제공하며, 정확도 유지와 연산 효율성 향상을 동시에 달성할 수 있는 실용적인 방법임을 입증한다.

혼합 노름 제약을 이용한 딥 빌리프 네트워크의 희소성 강화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기