움직이는 개념으로 투명한 비디오 분류
초록
MoTIF는 영상에 존재하는 인간이 이해할 수 있는 개념을 자동으로 추출하고, 각 개념별로 시간적 자기‑주의를 적용해 개념의 재현 시점과 패턴을 명시적으로 모델링한다. 개념별 독립적인 변환과 로그‑합‑지수 풀링을 통해 전역·국부·시간 의존성 3가지 설명 방식을 제공하며, 여러 비디오 벤치마크에서 블랙‑박스 모델과의 성능 격차를 크게 줄인다.
상세 분석
본 논문은 기존 이미지 기반 개념 병목 모델(CBM)을 비디오 도메인에 확장하기 위해 두 가지 핵심 기술을 제안한다. 첫 번째는 Agentic Concept Discovery이다. 영상을 일정 길이의 윈도우로 나눈 뒤, 각 윈도우에 대하여 대규모 멀티모달 LLM(Qwen‑3 30B)을 호출해 “객체·속성·행동” 형태의 텍스트 개념을 자동 생성한다. 생성된 텍스트는 CLIP 기반 이미지‑텍스트 임베딩에 매핑되고, 코사인 유사도 기반으로 중복을 제거한 뒤 전역 개념 은행을 구축한다. 이렇게 얻어진 개념은 사전 정의가 필요 없으며, 데이터셋마다 특화된 의미론적 다양성을 보장한다. 두 번째는 Per‑Channel Temporal Self‑Attention(대각선 어텐션)이다. 전통적인 트랜스포머는 Q‑K‑V 매트릭스를 전체 채널에 걸쳐 학습해 채널 간 혼합을 일으키지만, MoTIF는 각 개념 채널마다 독립적인 스칼라 Q, K, V 파라미터(Depthwise 1×1 Conv)만을 사용한다. 결과적으로 시간 축(T × T) 어텐션 맵이 개념별로 별도 계산되며, 개념 c가 시점 t에서 과거·미래 시점 u에 얼마나 주의를 기울이는지를 직접 확인할 수 있다. 이 설계는 개념 독립성을 보존하면서도 시간적 패턴(반복, 순차적 전이 등)을 학습한다는 장점을 제공한다.
모델은 비선형 Softplus와 스케일·바이어스(γ, δ)를 통해 비음수 개념 활성화를 보정하고, 선형 분류기 Wₖ를 적용한다. 영상 길이가 가변적인 경우, 로그‑합‑지수(LSE) 풀링을 사용해 시간 차원을 부드럽게 요약한다. LSE 풀링은 평균과 최댓값 사이를 온도 파라미터 τ로 조절하므로, 중요한 프레임에 더 큰 가중치를 부여하면서도 전체 흐름을 유지한다. 학습 손실은 클래스 교차 엔트로피에 L1 정규화(어텐션 희소성)와 활성화 희소성 패널티를 추가해 해석 가능성을 강화한다.
설명 측면에서 MoTIF는 (1) 전역 개념 기여도(시간 가중 평균), (2) 국부 개념 기여도(높은 πₜ 가중치를 가진 윈도우), (3) 시간 의존성 지도(개념별 어텐션 매트릭스)라는 세 가지 뷰를 제공한다. 이를 통해 사용자는 “어떤 개념이 언제 중요한지”를 직관적으로 파악할 수 있다.
실험에서는 Breakfast Actions, HMDB51, UCF101, Something‑Something V2 등 네 가지 데이터셋에 대해 다양한 CLIP‑기반 백본(RN‑50, ViT‑B/32, ViT‑L/14, SigLIP, Perception Encoder)과 결합하였다. 결과적으로 MoTIF는 Zero‑Shot CLIP 대비 1030%p, 기존 Global CBM 대비 515%p 향상을 보였으며, 특히 SSv2와 같이 복잡한 시간 의존성을 가진 데이터에서 가장 큰 격차 감소를 기록했다. Ablation 연구에서는 (i) 교차‑개념 어텐션을 허용하면 정확도는 상승하지만 해석성이 저하됨을, (ii) 윈도우 크기와 겹침 비율이 개념 추출 품질에 미치는 영향을 분석했다. 또한 개념 개수(C)와 모델 복잡도 사이의 트레이드오프를 정량화했으며, 대각선 어텐션이 채널 수가 많을 때 계산 비용이 O(C T²)로 증가하지만, 실제 실험에서는 GPU 메모리 한계 내에서 충분히 효율적이었다.
전체적으로 MoTIF는 자동 개념 추출 + 개념별 시간 자기‑주의라는 두 축을 결합해, 비디오 분류에서 해석 가능성과 성능을 동시에 달성한 최초의 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기