학습 기반 뉴럴 이징 머신: 제로오더 최적화와 언롤링
초록
본 논문은 NP‑hard 이징·맥스컷 문제를 풀기 위해, 반복적 동적 시스템의 업데이트 규칙을 신경망으로 학습하는 방법을 제안한다. 파라미터 수가 적은 다층 퍼셉트론(MLP)으로 노드‑별 로컬 필드를 매핑하고, 역전파 대신 제로오더 진화형 옵티마이저로 학습한다. 학습된 규칙은 모멘텀과 시간‑가변 스케줄 같은 알고리즘적 구조를 자동으로 발견해, 기존 물리‑영감 이징 머신과 최신 학습 기반 기법에 필적하는 해 품질과 시간‑대해성을 보인다.
상세 분석
논문은 이징 모델을 “동적 시스템”으로 정의하고, 각 노드 i의 상태 x_i(t)와 로컬 필드 h_i(t)=∑j J{ij} x_j(t)+½ l_i 로 표현한다. 핵심 아이디어는 업데이트 함수 F를 제한된 히스토리 T_c 를 입력으로 하는 MLP로 파라미터화하는 것이다. MLP는 두 개의 은닉층과 tanh 활성화를 사용하고, 편향을 배제해 입력에 대해 홀수(odd) 함수를 보장한다. 시간에 따라 가중치가 변하도록 θ_i(t)=∑{m=0}^{M-1} Θ{i,m} f_m(t/T) 형태의 푸리에 기반 시간‑베이스를 도입함으로써, 학습된 규칙이 “스케줄링”을 수행하도록 설계했다. 파라미터 총량은 (1+D+T_c D) M 으로, D는 은닉 뉴런 수, M은 시간 모드 수이며, 실험에서는 D≈8, T_c≈5, M≈4 정도가 사용돼 수백 개 수준에 불과하다.
학습 단계에서는 전통적인 역전파가 불안정하고, 정책 그라디언트도 보상 할당 문제로 잡음이 크다는 점을 지적한다. 대신, 제로오더 진화형 옵티마이저(ES)를 적용해 파라미터 분포(평균 θ_x, 공분산 θ_L)를 유지하고, 무작위 변동 v와 시스템 노이즈 η, 문제 인스턴스 J 를 샘플링해 보상 ρ(traj) 를 계산한다. 보상은 최종 에너지 또는 최적값 대비 비율 등 두 가지 형태를 제공한다(세부는 부록 F). 기대 보상 R(θ_x,θ_L)=E_{v,η,J}
댓글 및 학술 토론
Loading comments...
의견 남기기