저해상도 행동 인식의 새로운 길: 듀얼 해상도 증류와 데이터 균형 전략

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 실시간 감시 영상에서 발생하는 저해상도 행동 인식 문제를 해결하기 위해, 데이터 불균형을 완화한 백본 학습, 초고해상도 지식을 활용한 듀얼 해상도 증류, 그리고 장기 모델 앙상블 및 후처리 기법을 제안한다. 제안 방법은 Tiny Actions Challenge에서 1위 성적을 기록하였다.

상세 분석

이 연구는 저해상도 비디오에서 행동을 인식하는 두 가지 근본적인 난제, 즉 영상 해상도가 낮아 세부 특징이 손실되는 문제와 데이터가 장기 꼬리(long‑tailed) 형태로 심각하게 불균형된 문제를 동시에 해결하려는 시도이다. 첫 번째로, 저해상도 영상에 적합한 백본으로 ir‑CSN‑ResNet152와 UniFormer‑Base를 선택했으며, 두 모델 모두 Kinetics‑400 사전학습 가중치를 이용해 전이 학습을 수행한다. 저해상도 영상의 경우, 기존 고해상도 영상에 비해 시공간적 정보가 크게 감소하므로, 16개의 클립으로 균일하게 샘플링하고 각 클립에서 무작위 프레임을 선택하는 전략을 도입해 장거리 행동 컨텍스트를 보존한다.

데이터 불균형을 완화하기 위해, 저빈도 클래스에 대해 수평 뒤집기(horizontal flip) 증강을 적용하고, 이를 추가 학습 샘플로 활용한다. 이러한 데이터 밸런싱은 과적합을 방지하고, 특히 F1‑score에서 눈에 띄는 향상을 가져왔다.

두 번째 핵심 기여는 듀얼 해상도 증류 프레임워크이다. 저해상도 영상을 RealBasicVSR을 이용해 224×224 크기의 초고해상도 영상으로 변환하고, 변환된 영상에 동일한 라벨을 부여한다. 초고해상도 영상을 사용해 별도의 백본을 학습시킨 뒤, 이 모델을 ‘지식 추출기’로 활용한다. 구체적으로, 저해상도 영상에 대응되는 초고해상도 영상의 예측 벡터 k를 얻고, 저해상도 전용 백본의 출력 p와 k 사이에 MSE 기반 지식 증류 손실 L_kd를 적용한다. 최종 손실은 L_total = α·L_bce + (1−α)·L_kd 형태로, α는 두 손실 간 가중치를 조절한다. 실험 결과, 초고해상도 학습만 수행한 경우보다 증류를 추가했을 때 F1‑score가 0.484에서 0.492로 약 1.6%p 상승하였다.

세 번째 기여는 모델 앙상블 및 후처리이다. 서로 다른 학습 단계에서 저장된 12개의 모델(예: ir‑CSN 4종, UniFormer 1종 등)을 다중 투표 방식으로 결합하고, 클래스별 샘플 수에 따라 임계값을 조정한다. 즉, 다수 클래스는 높은 임계값을, 소수 클래스는 낮은 임계값을 적용해 재현율을 높인다. 또한, 동일 카테고리 내에서 가장 높은 점수를 가진 클래스만을 선택하는 ‘그룹 기반 필터링’ 전략을 도입해 혼동을 최소화한다. 이러한 앙상블과 후처리 과정을 거친 최종 모델은 전체 F1‑score 0.883을 달성하였다.

학습 최적화 측면에서는, 다중 라벨 분류 특성상 바이너리 교차 엔트로피 손실에 비대칭 손실(Asymmetric Loss)과 Focal 기반 가중치를 결합해 클래스 불균형을 완화하였다. 옵티마이저는 AdamW를 사용하고, Warm‑up 단계 후 Cosine Annealing with Restarts 스케줄링을 적용했다. UniFormer는 2e‑4, ir‑CSN은 1e‑4의 초기 학습률을 사용했으며, 드롭패스와 드롭아웃 비율을 각각 0.4와 0.5로 설정해 과적합을 억제하였다.

전체적으로, 이 논문은 저해상도 행동 인식이라는 실용적 문제에 대해 데이터 균형, 지식 증류, 모델 앙상블이라는 세 축을 조화롭게 결합함으로써, 기존 방법 대비 현저한 성능 향상을 입증하였다. 특히, 초고해상도 복원을 통한 지식 전달과 클래스별 임계값 조정은 장기 꼬리 데이터셋에 적용 가능한 일반적인 전략으로 평가될 수 있다.

저해상도 행동 인식의 새로운 길: 듀얼 해상도 증류와 데이터 균형 전략

초록

상세 분석

댓글 및 학술 토론

의견 남기기