느슨한 주석 이미지의 가상 키워드 활용 모델링

본 논문은 훈련 이미지에 존재하는 불완전한 주석을 키워드 간 유사도 측정을 통해 “상상된”(imagined) 키워드로 보강한 뒤, 보강된 주석과 원래 주석을 동시에 이용해 확률적 잠재 의미 분석(PLSA) 모델을 학습한다. 이를 통해 기존 PLSA‑words 방법의 성능을 유지하면서 의미 범위를 넓히는 효과를 얻는다.

저자: ** 홍 탕 (Hong Tang)¹, 노자 부제마 (Nozha Boujemma)², 윤하오 첸 (Yunhao Chen)³ ¹ ADREM

본 논문은 자동 이미지 주석화 분야에서 훈련 이미지에 제공되는 주석이 흔히 불완전하고 모호하다는 두 가지 핵심 문제를 다룬다. 첫 번째는 시각 특징(블롭)과 키워드 사이의 대응 관계가 일대다 혹은 다대다 형태로 복잡하게 얽혀 있어, 단순 매핑으로는 충분히 표현되지 않는다. 두 번째는 인간이 손으로 달아준 키워드가 제한된 수(보통 5개 이하)만 포함하고 있어, 이미지의 전체 의미를 포괄하지 못한다는 점이다. 특히 두 번째 문제는 기존 연구에서 충분히 조명되지 않았으며, 저자는 이를 “키워드 누락”이라고 정의하고, 누락된 키워드를 사전에 복원하는 과정을 제안한다. ### 1. 문제 정의 및 기본 설정 훈련 이미지 집합 \(D=\{I_1,\dots,I_N\}\)는 각각 블롭 히스토그램 \(B_i\)와 워드 히스토그램 \(W_i\)로 표현된다. 워드 히스토그램은 두 부분으로 나뉜다: 실제 주석이 달린 키워드 집합 \(W_i^+\)와 주석이 없는 키워드 집합 \(W_i^0\). 일반적인 경우 \(|W_i^+|\le5\)에 반해 \(|W_i^0|\approx150\)으로, 대부분의 의미를 설명할 키워드가 누락돼 있다. ### 2. “상상된”(Imagined) 키워드 생성 알고리즘 누락된 키워드 \(w_j\in W_i^0\)에 대해, 저자는 다음과 같은 가정을 둔다. \

느슨한 주석 이미지의 가상 키워드 활용 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기