이미지 분류와 주석을 동시에 수행하는 감독형 신경 자기회귀 토픽 모델

본 논문은 문서용 신경 자기회귀 분포 추정기(DocNADE)를 이미지 분야에 적용한 SupDocNADE를 제안한다. 시각 단어와 위치 정보를 활용하고, 클래스 레이블을 학습 목표에 포함시켜 이미지 분류와 주석을 동시에 수행한다. Scene15, LabelMe, UIUC‑Sports 데이터셋에서 기존 감독형 LDA 대비 우수한 성능을 보였다.

저자: Yin Zheng, Yu-Jin Zhang, Hugo Larochelle

본 논문은 이미지 장면 인식과 주석(Annotation) 작업을 동시에 수행하기 위한 새로운 토픽 모델인 SupDocNADE(Supervised Document Neural Autoregressive Distribution Estimator)를 제안한다. 기존의 토픽 모델인 LDA(Latent Dirichlet Allocation)는 이미지의 시각 단어를 문서의 단어와 동일시해 확률적 토픽 구조를 학습했지만, 생성 과정에서의 복잡한 추론(Variational Inference 혹은 MCMC)과 제한된 표현력 때문에 최근에는 더 효율적이고 표현력이 풍부한 모델이 요구되어 왔다. DocNADE는 문서의 단어 시퀀스를 확률 체인 규칙으로 분해하고, 각 조건부 p(v_i | v_{

이미지 분류와 주석을 동시에 수행하는 감독형 신경 자기회귀 토픽 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기