모든 모달리티보다 일부가 더 좋다 인스턴스 기반 다중모달 다중라벨 분류기 체인
본 논문은 다중모달·다중라벨 학습에서 테스트 시 모든 모달리티를 추출할 필요가 없다는 점에 착안하여, 인스턴스별로 최적의 모달리티 순서를 동적으로 결정하는 Multi‑modal Classifier Chains(MCC) 알고리즘을 제안한다. 라벨 간 상관관계를 Gini 지수 기반 순서화하고, LSTM‑유사 게이트 구조를 이용해 현재까지 추출된 모달리티와 라벨 예측 정보를 메모리 셀에 저장한다. 손실 함수는 라벨 예측 로그 손실과 모달리티 선택 힌…
저자: Yi Zhang, Cheng Zeng, Hao Cheng
본 논문은 현대 데이터 수집 기술의 발달로 인해 객체가 다중모달 특성을 가지면서 동시에 다중라벨을 가질 수 있는 상황이 빈번해진 점에 주목한다. 이러한 다중모달·다중라벨(MMML) 문제는 각 모달리티마다 추출 비용이 다르고, 모든 모달리티를 무조건 사용하면 연산량과 시간 비용이 급증한다는 실용적 제약을 안고 있다. 따라서 저자는 테스트 단계에서 “필요한 만큼만” 모달리티를 선택적으로 추출하는 인스턴스‑지향 접근법을 제안한다.
1) **관련 연구 정리**
다중라벨 학습에서는 Binary Relevance(BR), Classifier Chains(CC), Ensemble of CC(ECC) 등 라벨 간 상관관계를 활용하는 방법들이 제안되었지만, 라벨 순서에 민감하거나 비용 고려가 부족했다. 다중모달 분야에서는 차원 축소, 특징 선택, 다중모달 융합 기법이 주로 사용되었으며, 대부분은 테스트 시 모든 모달리티를 미리 추출한다는 가정을 전제로 한다. 이러한 한계를 극복하고자 본 연구는 라벨 체인과 모달리티 선택을 동시에 최적화한다.
2) **문제 정의 및 기호**
데이터셋 D={(X_i,Y_i)}_{i=1}^N 에서 X_i는 P개의 모달리티를 합친 벡터이며, 각 모달리티 m은 d_m 차원을 가진다. 라벨 벡터 Y_i는 L개의 이진 라벨로 구성된다. 각 모달리티 m에 대한 추출 비용 c_m을 정의하고, 인스턴스 i에 대해 선택된 모달리티 순서 S_i={S_1^i,…,S_{m_i}^i} (m_i≤P)를 허용한다.
3) **라벨 체인 설계**
라벨 순서는 Gini 지수를 이용해 각 라벨 데이터셋 D_j의 불순도를 계산하고, 불순도가 큰 라벨부터 순서를 정한다. 이렇게 얻은 순서 τ={τ_1,…,τ_L}는 CC의 학습 순서를 결정한다. 각 단계 j에서는 이전 라벨들의 예측값을 특징에 추가해 확장된 입력
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기