텍스트 정제와 정렬로 포인트 기반 행동 탐지 성능 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 포인트‑감독형 시간 행동 지역화(PT‑AL)에 텍스트 정보를 도입한다. 사전 학습된 캡셔닝 모델으로 프레임 설명을 생성하고, 포인트 라벨을 활용해 오류를 교정하는 Point‑based Text Refinement(PTR)와 시각·언어 특징을 동일한 의미 공간에 정렬하는 Point‑based Multimodal Alignment(PMA)를 설계하였다. 정제·정렬된 다중모달 특징을 기존 액션 검출기에 입력함으로써 THUMOS’14, ActivityNet 등 5개 벤치마크에서 최첨단 성능을 달성했으며, RTX 3090 24 GB 한 대에서도 실시간에 가까운 속도로 동작한다.

상세 분석

본 연구는 포인트‑감독형 시간 행동 지역화(PT‑AL)의 근본적인 한계인 시각 정보에만 의존하는 구조를 텍스트 모달리티와 결합함으로써 극복한다. 먼저, 저자들은 BLIP‑2와 같은 대규모 비전‑언어 사전학습 모델을 이용해 비디오 스니펫마다 캡션을 자동 생성한다. 이 단계는 기존 PT‑AL 파이프라인에 비해 데이터 라벨링 비용을 거의 증가시키지 않으며, 행동의 의미적 힌트를 풍부하게 제공한다. 그러나 캡션 생성 모델은 동작이 유사하거나 배경이 복잡한 경우 ‘hammer’를 ‘discus’처럼 잘못된 엔티티를 삽입하는 오류를 범한다. 이를 해결하기 위해 제안된 Point‑based Text Refinement(PTR) 모듈은 세 가지 핵심 절차로 구성된다. 첫째, 행동을 ‘엔티티‑종속’과 ‘엔티티‑비종속’으로 구분하고, 각 엔티티‑종속 행동에 대해 가장 대표적인 객체(예: hammer, discus)를 매핑하는 액션‑투‑엔티티 사전을 구축한다. 둘째, TextGraphParser와 같은 텍스트 파서로 캡션에서 추출된 엔티티를 식별하고, 포인트 라벨에 기반한 메모리 M(y)와 교차 검증한다. 포인트 라벨이 제공하는 정확한 프레임 설명만을 저장함으로써, 잘못된 엔티티가 포함된 캡션을 ‘교체’하거나 ‘제거’한다. 교체 단계에서는 잘못된 엔티티가 Eₓ(데이터셋에 존재하지 않는 엔티티) 집합에 속하면, 해당 엔티티를 사전에 정의된 정답 엔티티로 대체한다. 제거 단계는 엔티티‑비종속 행동에서 배경 잡음으로 인해 삽입된 불필요한 명사를 삭제한다. 이러한 정제 과정은 포인트 라벨이라는 최소한의 감독 정보를 최대한 활용해 텍스트의 신뢰성을 크게 높인다.

다음으로 Point‑based Multimodal Alignment(PMA) 모듈은 정제된 텍스트 특징과 시각 특징을 동일 차원의 의미 공간으로 투사한다. 시각 특징은 I3D로 추출된 RGB와 옵티컬 플로우를 결합하고, 텍스트 특징은 X‑CLIP을 이용해 임베딩한다. 두 특징은 선형 변환을 거쳐 같은 차원으로 맞춘 뒤, 포인트 라벨을 기반으로 한 다중모달 대비 학습(constrastive learning) 손실을 적용한다. 구체적으로, 동일 행동 클래스에 속하는 시각·텍스트 쌍은 ‘양성’으로, 서로 다른 클래스 쌍은 ‘음성’으로 처리한다. 이때 포인트 라벨이 제공하는 ‘pseudo‑action points’와 ‘pseudo‑background points’를 활용해, 행동 프레임에서는 시각·텍스트 특징이 서로 가깝게, 배경 프레임에서는 멀게 배치되도록 최적화한다. 결과적으로, 시각 특징만으로는 구분이 어려운 미묘한 행동 차이도 텍스트 의미와 결합함으로써 구분력이 강화된다.

전체 파이프라인은 기존 HR‑Pro

텍스트 정제와 정렬로 포인트 기반 행동 탐지 성능 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기