제한볼츠만머신을 위한 교란 하강 학습

본 논문은 제한볼츠만머신(RBM) 학습을 위해 “교란‑하강(Perturb‑and‑Descend, PD)”이라는 새로운 샘플링·학습 기법을 제안한다. 기존의 대비적 발산(Contrastive Divergence)과 교란‑MAP 샘플링 아이디어를 결합해, 학습 데이터에서 시작해 교란된 에너지 함수를 따라 제한된 단계만큼 혹은 지역 최솟값에 도달할 때까지 하강한다. 이 과정은 선형 연산과 임계값 판단만으로 빠르게 수행되며, 교란 강도(β)를 온도 파…

저자: Siamak Ravanbakhsh, Russell Greiner, Brendan Frey

본 논문은 제한볼츠만머신(RBM)과 같은 이산 확률 그래프 모델의 최대우도 학습에서 부정 단계의 샘플링 비용을 감소시키고, 모델의 일반화 성능을 향상시키기 위한 새로운 방법인 “교란‑하강(Perturb‑and‑Descend, PD)”을 제안한다. 1. **배경 및 문제점** - 확률 그래프 모델의 학습은 로그우도 ℓ(θ)의 그라디언트를 계산하는데, 이는 데이터에 대한 기대값(양성 단계)과 모델 전체에 대한 기대값(음성 단계) 차이로 표현된다. - 음성 단계는 현재 모델로부터 무작위 샘플을 필요로 하는데, 이는 일반적으로 긴 마코프 체인(MCMC)이나 복잡한 MAP 최적화가 요구된다. - 대비적 발산(CD)은 데이터 초기화 후 짧은 Gibbs 체인(K‑step)으로 근사 샘플을 얻어 효율성을 확보했지만, 샘플이 모델에 과도하게 의존한다는 한계가 있다. - 교란‑MAP 방법은 Gumbel 잡음을 각 상태에 더해 MAP 최적화를 수행하면 무편향 샘플을 얻을 수 있지만, MAP 자체가 NP‑hard인 경우 실용적이지 않다. 2. **교란‑하강(PD) 아이디어** - PD는 두 기존 방법의 장점을 결합한다. 먼저 현재 모델에 Gumbel 잡음 ε(x) (또는 β·ε(x) 형태) 를 더해 교란된 에너지 eE(x)=E(x)−β·ε(x)를 만든다. - 학습 데이터 v^(k)를 초기 상태로 삼아, 교란된 모델에서 좌표 하강(block coordinate descent)을 수행한다. 구체적으로는 - h ← 1{e b + f·Wᵀv > 0} - v ← 1{e a + f·W h > 0} 를 K번 반복하거나 더 이상 변화가 없을 때까지 수행한다. 여기서 e a, e b는 편향에 추가된 잡음, f는 가중치에 대한 잡음 행렬이다. - 이 과정은 이진 RBM의 조건부 독립성 덕분에 단순한 선형 연산과 임계값 판단만으로 빠르게 수행된다. 최종 얻어진 (v, h) 쌍을 부정 단계의 “fantasy particle”로 사용한다. 3. **교란 강도와 온도 파라미터** - β는 잡음의 스케일을 조절한다. β=1/T 로 두면 잡음 스케일과 온도 T가 동일한 효과를 갖는다. β>1이면 잡음이 커져 에너지 지형이 평탄해지고, 부정 단계에서 데이터와 멀리 떨어진 상태들의 확률을 크게 감소시킨다. 이는 모델이 더 강인하고 은닉 유닛의 활성도가 희소해지는 정규화 효과를 제공한다. 4. **1차와 2차 교란** - **1차 교란**: 편향 aᵢ, bⱼ에만 Gumbel 잡음을 추가한다. 이는 기존 교란‑MAP에서 가장 간단한 형태이다. - **2차 교란**: 가중치 행렬 W에서 절대값이 큰 |Wᵢⱼ|를 우선적으로 선택하고, Hungarian 알고리즘을 이용해 최대 매칭을 구한다. 선택된 (i, j) 쌍에 대해 2×2 잠재함수에 Gumbel 잡음 ε(y, z) (y, z ∈ {0,1}) 를 부여한다. 결과적으로 - fWᵢⱼ = Wᵢⱼ + ε(1,1) − ε(0,1) − ε(1,0) + ε(0,0) - e aᵢ = aᵢ − ε(0,0) + ε(0,1) - e bⱼ = bⱼ − ε(0,0) + ε(1,0) 와 같이 가중치와 편향 모두가 교란된다. 이는 보다 정교한 에너지 변형을 제공해 샘플링 품질을 향상시킨다. 5. **알고리즘 절차** 1. 현재 파라미터 θ=(W,a,b)를 기반으로 Gumbel 잡음(또는 β·Gumbel)을 생성한다. 2. 학습 데이터 v^(k)에서 시작해 위의 좌표 하강을 K번 수행한다. 3. 얻어진 (v̂, ĥ)를 부정 단계의 기대값 추정에 사용한다. 4. 파라미터를 전통적인 CD와 동일한 형태의 그라디언트 업데이트(양성‑음성 차)로 조정한다. 5. 전체 데이터에 대해 반복한다. 6. **이론적·실용적 장점** - MAP 최적화가 불가능한 일반 이산 그래프 모델에도 적용 가능하다. - 매 단계마다 새로운 교란을 도입함으로써 모델이 특정 모드에 과도하게 집중되는 현상을 방지한다. - β 파라미터를 통해 온도와 정규화 효과를 명시적으로 제어할 수 있어, 과적합 방지와 특징 희소화에 도움이 된다. - 실험에서는 β를 크게 설정했을 때 은닉 유닛의 평균 활성도가 감소하고, 학습된 특징이 잡음에 강인해지는 현상이 관찰되었다. 7. **결론** - PD는 “교란 → 짧은 하강 → 부정 샘플”이라는 간단하면서도 효과적인 루프를 제공한다. - 기존 CD가 갖는 마코프 체인 의존성을 완화하고, 교란‑MAP의 무편향 샘플링 아이디어를 실용적인 형태로 구현한다. - 향후 연구에서는 β 스케줄링, 연속형 변수에 대한 확장, 그리고 더 복잡한 그래프 구조에 대한 적용 가능성을 탐색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기