텍스트와 객체 인식을 결합한 멀티모달 감성 분석 강화
초록
본 논문은 이미지에서 객체 인식으로 추출한 객체명과 이미지에 부착된 텍스트(캡션)를 결합한 TEMS(Txt‑Enhanced Multimodal Sentiment) 방식을 제안한다. 두 개의 공개 데이터셋(SIMPSoN, MVSA‑Single)에서 단일 이미지, 단일 텍스트, 그리고 TEMS를 이용한 멀티모달 감성 분류 실험을 수행했으며, 모든 객체명을 포함한 TEMS가 기존 이미지‑텍스트 별도 분석보다 높은 정확도를 보임을 입증한다.
상세 분석
본 연구는 멀티모달 감성 분석에서 시각적 정보와 언어적 정보를 효과적으로 융합하기 위해 ‘텍스트ual‑Cues for Enhancing Multimodal Sentiment Analysis (TEMSA)’라는 프레임워크를 설계하였다. 핵심 아이디어는 이미지 내 객체 탐지 모델(DETR와 Faster‑R‑CNN)을 활용해 최대 200개의 객체명을 추출하고, 이를 이미지와 연관된 캡션 텍스트와 문자열 수준에서 직접 연결(concatenation)하는 것이다. 이렇게 생성된 텍스트 시퀀스(TEMS)를 기존의 텍스트 기반 감성 모델인 BiLSTM과 BERT에 입력함으로써, 이미지의 시각적 의미를 텍스트 형태로 변환해 언어 모델이 직접 학습하도록 만든다. 실험은 네 가지 단계로 구성되었다. ① 이미지 단독으로 DCNN(VGG‑16, ResNet 등)과 Vision Transformer(ViT)를 이용해 시각 감성을 예측, ② 텍스트 단독으로 BiLSTM과 BERT를 사용해 텍스트 감성을 예측, ③ 위 두 모델에 TEMS를 결합해 멀티모달 감성을 예측, ④ 객체가 하나만 탐지된 서브셋에 한정해 TEMS의 효과를 검증하였다. 두 데이터셋 모두 이미지와 텍스트 라벨이 별도로 제공되었으며, 연구자는 이미지와 텍스트 라벨이 일치하는 경우에만 ‘Joint’ 라벨을 새롭게 정의하였다. 결과는 TEMS를 활용한 경우가 이미지‑텍스트 별도 분석보다 평균 3~5%p(percentage point) 높은 정확도를 기록했으며, 특히 객체가 다수(≥2) 탐지된 이미지에서 성능 향상이 두드러졌다. 반면, 단일 객체만 사용한 실험에서는 개선 효과가 미미하거나 오히려 감소하는 경향을 보였다. 이는 객체명 전체를 텍스트 시퀀스로 제공함으로써 풍부한 시각‑언어 연관성을 학습할 수 있음을 시사한다. 또한, 객체 탐지 단계에서 DETR와 Faster‑R‑CNN을 병합해 91개의 공통 객체명을 확보함으로써 라벨링 부족 문제를 완화하였다. 논문은 기존 연구가 이미지 전체 혹은 제한된 영역만을 활용한 반면, 모든 탐지 객체를 텍스트화해 멀티모달 융합에 활용한 점에서 차별성을 강조한다. 한계점으로는 객체 명칭이 언어적 의미와 직접 연결되지 않을 경우 노이즈가 발생할 가능성, 그리고 객체 탐지 정확도에 의존하는 구조적 제약을 들었다. 향후 연구에서는 객체명에 대한 의미론적 정제, 어텐션 기반 융합, 그리고 비정형 텍스트(예: 해시태그, 이모지)와의 통합을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기