대규모 비디오 도메인 적응을 위한 시간 주의 정렬
본 논문은 영상 도메인 적응의 한계를 극복하기 위해 두 개의 대규모 비디오 DA 데이터셋(UCF‑HMDB_full, Kinetics‑Gameplay)을 구축하고, 시간적 동역학을 동시에 정렬·학습하는 TA2N과, 도메인 불일치를 기반으로 시간적 특징에 가중치를 부여하는 TA3N을 제안한다. 실험 결과, 제안 모델은 기존 이미지 기반 DA 방법들을 확장한 경우보다 월등히 높은 정확도를 달성한다.
저자: Min-Hung Chen, Zsolt Kira, Ghassan AlRegib
본 논문은 비디오 도메인 적응(Video Domain Adaptation, VDA)의 현주소와 한계를 먼저 조명한다. 기존 이미지 기반 도메인 적응(DA) 기법들은 풍부한 연구 성과를 보였지만, 비디오에 직접 적용하기엔 두 가지 큰 문제점이 있다. 첫째, 비디오 데이터는 프레임 단위의 공간 특징 외에도 시간 순서에 따른 동역학 정보를 포함한다는 점이다. 둘째, 이를 평가할 수 있는 충분히 큰 규모와 도메인 간 격차가 큰 데이터셋이 부족했다.
이에 저자들은 두 개의 새로운 대규모 데이터셋을 구축하였다. UCF‑HMDB_full은 UCF101과 HMDB51 사이에 12개의 겹치는 클래스를 선정해 기존 UCF‑HMDB_small 대비 3배 이상 규모를 확대했으며, 두 데이터셋 간 시각·배경·촬영 조건 차이가 크게 증가한다. Kinetics‑Gameplay은 실제 영상(Kinetics‑600)과 가상 게임 영상 사이의 도메인 차이를 극대화한 데이터셋으로, 가상 환경에서 촬영된 게임 플레이 영상과 실제 촬영된 인간 행동 영상이 동일한 30개의 클래스를 공유한다. 두 데이터셋 모두 기존 연구에서 사용된 소규모 데이터보다 도메인 불일치가 현저히 크며, VDA 연구에 필요한 “포화되지 않은” 테스트베드 역할을 한다.
다음으로 논문은 비디오 DA를 위한 기본 모델을 설계한다. 기본 구조는 ResNet‑ 기반 프레임 특징을 추출하고, 이를 두 단계의 모듈로 처리한다. Spatial 모듈(G_sf)은 프레임 수준 특징을 MLP로 변환해 작업‑특화 표현으로 만든다. Temporal 모듈(G_tf)은 프레임 특징을 평균 풀링(Temporal Pooling)해 비디오 수준 표현을 만든다. 이후 완전 연결층(G_y)으로 클래스 예측을 수행한다. 이 기본 모델에 이미지 기반 DA인 DANN(Gradient Reversal Layer + 도메인 판별기)을 적용해 두 가지 변형을 만든다. 하나는 Spatial 특징에만 도메인 판별기(G_sd)를 연결한 경우, 다른 하나는 Temporal 풀링 후의 비디오 특징에 도메인 판별기(G_td)를 연결한 경우이다. 실험 결과, Temporal 특징에 도메인 정렬을 적용하는 것이 Spatial만 적용하는 경우보다 현저히 좋은 성능을 보였다.
하지만 평균 풀링은 프레임 간 관계를 완전히 무시한다는 한계가 있다. 이를 보완하기 위해 Temporal Relation 모듈을 도입한다. 이 모듈은 n‑frame 조합을 선택해 각 조합을 MLP(g_φ(n))로 변환하고, 여러 n값(예: 2,3,4…)에 대해 얻은 관계 특징을 모두 합산해 최종 비디오 표현을 만든다. 이렇게 하면 시간적 동역학이 명시적으로 인코딩된다. 이 구조 위에 도메인 판별기(G_n^rd)를 각각의 n‑frame 관계에 삽입해, 관계별로 adversarial loss를 적용한다. 이를 Temporal Adversarial Adaptation Network, 즉 TA2N이라 명명한다. TA2N은 “시간적 동역학을 정렬 대상에 포함시키는” 최초의 시도이며, 기존 이미지 기반 DA를 단순히 확장한 방법보다 뛰어난 성능을 기록한다.
TA2N의 한계는 모든 로컬 시간 특징을 동일하게 정렬한다는 점이다. 실제 도메인 차이는 일부 관계에서 더 크게 나타날 수 있다. 이를 해결하고자 저자들은 도메인 주의 메커니즘을 설계한다. 각 관계 특징에 대한 도메인 판별기의 출력 ˆd_n_i를 이용해 엔트로피 H(ˆd_n_i)를 계산하고, w_n_i = 1 − H(ˆd_n_i) 로 가중치를 정의한다. 엔트로피가 낮을수록(도메인 구분이 명확할수록) 해당 특징이 도메인 차이를 많이 반영한다는 의미이며, 정렬에 더 큰 비중을 둔다. 이렇게 가중치를 적용한 최종 비디오 표현은 h_i = Σ_n (w_n_i + 1)·G_n^tf(G_sf(X_i)) 로 계산된다. 또한 최소 엔트로피 정규화(L_min‑entropy)를 도입해 클래스 예측기의 타깃 도메인 적응을 촉진한다. 이 전체 구조를 Temporal Attentive Adversarial Adaptation Network, 즉 TA3N이라 부른다.
실험에서는 네 개의 VDA 시나리오(소규모·대규모 각각 두 개)에서 TA3N이 모든 비교 대상(기존 이미지 기반 DA, 최신 비디오 DA 방법 등)을 앞선다. 특히 “HMDB → UCF”에서는 Source‑only 73.9%에서 81.8%(+7.9%)로, “Kinetics → Gameplay”에서는 +10.3%p 상승을 기록한다. Ablation study는 (1) Temporal Relation만 적용해도 Spatial‑only 대비 3~5%p 상승, (2) TA2N에 Attention을 추가하면 추가 1~2%p 향상, (3) 엔트로피 기반 가중치가 없을 경우 성능이 현저히 떨어짐을 보여준다. 또한, 도메인 판별기의 정확도가 높은 관계에 높은 가중치가 부여되는 현상을 시각화해, 제안된 주의 메커니즘이 실제 도메인 차이를 반영한다는 것을 증명한다.
마지막으로 논문은 세 가지 주요 기여를 정리한다. 첫째, 대규모 비디오 DA 데이터셋을 공개해 연구 커뮤니티에 새로운 벤치마크를 제공한다. 둘째, 비디오의 시간적 동역학을 정렬 대상에 포함시키는 간단하지만 효과적인 TA2N 프레임워크를 제시한다. 셋째, 도메인 불일치를 정량화해 주의 메커니즘에 활용하는 TA3N을 통해 현재 가장 높은 성능을 달성한다. 향후 연구에서는 멀티모달(예: optical flow, audio)과 결합하거나, 더 복잡한 시계열 모델(RNN, Transformer)과의 통합을 탐색할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기