동적 라우팅 캡슐을 전문가 뉴런의 곱으로 학습하기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 캡슐 네트워크를 다수의 스칼라 뉴런으로 구성된 완전 연결 구조로 바라보고, 라우팅‑바이‑어그리먼트에서 얻은 라우팅 가중치를 전문가 뉴런(Product‑of‑Experts) 모델의 가중치로 해석한다. 에너지 함수를 정의하고, 라우팅 단계와 대비학습(Contrastive Divergence) 단계 를 교대로 수행하는 비지도 학습 알고리즘을 제안한다. MNIST와 같은 비전 데이터셋에 대해 생성 모델로서 실험을 수행해 현실적인 이미지를 생성함을 보인다.
상세 분석
이 논문은 캡슐 네트워크의 동적 라우팅을 기존의 Product‑of‑Experts(PoE) 프레임워크와 연결시키는 새로운 수학적 해석을 제공한다. 먼저 캡슐을 다차원 벡터가 아니라 동일 차원의 스칼라 뉴런 집합으로 재정의하고, 각 캡슐 간 연결을 완전 연결 가중치 행렬 (W_{ij}^{(l)}) 로 표현한다. 라우팅‑바이‑어그리먼트는 각 예측 벡터 (z_{j|i}=W_{ij}^{(l)}x_i^{(l)}) 에 대해 스칼라 라우팅 계수 (c_{ij}^{(l)}) 를 반복적으로 업데이트하며, 이 계수는 (\sum_i c_{ij}^{(l)}=1) 을 만족한다.
저자는 라우팅 계수를 PoE 모델의 가중치로 해석한다. 캡슐 (i) 와 (j) 사이의 에너지 함수는
\
댓글 및 학술 토론
Loading comments...
의견 남기기