클라우드 기반 멀티모달 감정 인식 트랜스포머
초록
**
본 논문은 시각(ViT), 음성(Wav2Vec2), 텍스트(BERT) 세 가지 사전학습 인코더를 결합한 크로스‑모달 트랜스포머(CMT)를 제안한다. 클라우드 환경(Kubernetes·TensorFlow Serving)에서 분산 학습·실시간 추론을 구현해 대규모 사용자 스트림을 저지연(≈128 ms)으로 처리한다. IEMOCAP·MELD·AffectNet에서 기존 멀티모달 베이스라인 대비 F1 +3 %·손실 ‑12.9 %를 달성했으며, 감정 상태에 따라 UI 색상·대화 톤·응답 속도를 동적으로 조정하는 적응형 HCI 시나리오를 시연한다.
**
상세 분석
**
이 연구는 감정 인식 시스템이 직면한 ‘단일 모달 의존성’과 ‘현장 실시간 처리’라는 두 가지 핵심 문제를 동시에 해결하려는 시도이다. 첫 번째로, 시각·청각·언어라는 서로 다른 특성을 가진 데이터를 동일한 차원(D=768)으로 매핑하기 위해 ViT, Wav2Vec2, BERT라는 최신 사전학습 모델을 선택했다. ViT는 패치 기반 셀프‑어텐션을 통해 얼굴 표정의 전역적 컨텍스트를 포착하고, Wav2Vec2는 셀프‑슈퍼바이즈드 방식으로 음성의 억양·프로소디 정보를 고차원 특징으로 변환한다. BERT는 문맥적 의미와 감정 어휘를 효과적으로 인코딩한다.
두 번째로, 크로스‑모달 어텐션(MHCA)을 활용해 세 모달 간 상호작용을 동적으로 학습한다. 기존의 조기·후기 융합 방식은 각각 동기화 비용·모달 간 의존성 손실이라는 한계를 갖는데, CMT는 각 모달의 키·밸류를 서로 교환함으로써 ‘감정 표현의 다중 경로’를 동시에 고려한다. 이때 각 모달별 마스크와 포지셔널 인코딩을 유지해 시계열 정렬 문제도 완화한다.
클라우드 측면에서는 Kubernetes 기반 마이크로서비스 아키텍처와 TensorFlow Serving을 결합해 인코더·퓨전·분류 모듈을 각각 독립적인 컨테이너로 배포한다. gRPC 기반 저지연 RPC와 All‑Reduce 기반 데이터 병렬 학습을 통해 GPU 자원을 탄력적으로 할당하고, 트래픽 급증 시 자동 스케일‑아웃을 지원한다. 실험 결과 평균 응답 지연 128 ms는 기존 트랜스포머 기반 멀티모달 시스템 대비 35 % 개선된 수치이며, 이는 실시간 고객 서비스·가상 튜터링 등 실용 애플리케이션에 충분히 적용 가능함을 의미한다.
성능 평가에서는 IEMOCAP, MELD, AffectNet 세 데이터셋을 활용해 다중 클래스(6~8개) 감정 분류를 수행했다. CMT는 기존 멀티모달 베이스라인(멀티‑헤드 어텐션·그래프 기반 융합 등) 대비 평균 F1 스코어가 3 % 상승하고, 교차 엔트로피 손실이 12.9 % 감소했다. 특히 음성·텍스트 동시 입력이 가능한 대화형 데이터(MELD)에서 가장 큰 이득을 보였으며, 이는 크로스‑모달 어텐션이 대화 흐름과 감정 변화를 효과적으로 캡처함을 시사한다.
한계점으로는 (1) 사전학습 모델 크기가 크고 파라미터 수가 많아 클라우드 비용이 상승할 가능성, (2) 실시간 스트리밍 환경에서 프레임 손실·네트워크 지연에 대한 내성이 충분히 검증되지 않음, (3) 감정 라벨링의 주관성 및 문화적 차이에 대한 고려가 부족하다는 점을 들 수 있다. 향후 연구에서는 경량화된 트랜스포머(예: DistilViT·TinyBERT)와 연합 학습(Federated Learning)으로 프라이버시와 비용을 동시에 최적화하고, 멀티‑언어·다문화 데이터셋을 확대해 글로벌 적용성을 검증할 필요가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기