360도 비디오를 위한 트랜스포머 기반 시각 주의 예측 모델 SalFormer360

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 360도 영상의 시각 주의(살리언시) 맵을 예측하기 위해 SegFormer 기반의 트랜스포머 인코더와 맞춤형 디코더를 결합한 SalFormer360 모델을 제안한다. 두 프레임(현재 프레임과 t‑5 프레임)을 입력으로 사용하고, 인간의 시선 중심 편향을 반영한 Viewing Center Bias를 통합한다. Sport360, PVS‑HM, VR‑EyeTracking 세 벤치마크에서 기존 최첨단 방법보다 Pearson Correlation Coefficient 기준으로 각각 8.4%, 2.5%, 18.6% 향상된 성능을 보인다.

상세 분석

SalFormer360은 2차원 이미지 분할에 최적화된 SegFormer(MiT‑B0) 인코더를 360도 영상에 그대로 적용한 뒤, 두 개의 연속 프레임을 채널 차원으로 결합해 6채널 입력으로 변환한다. 첫 번째 컨볼루션 레이어의 가중치를 복제함으로써 사전 학습된 파라미터를 그대로 활용하면서도 입력 차원을 확장한다는 점이 설계상의 핵심이다. SegFormer의 계층적 트랜스포머 구조는 겹치는 패치 임베딩(overlapped patch embedding)과 다중 스케일 self‑attention을 통해 공간적 특징을 효율적으로 추출한다. 이는 360도 영상의 왜곡이 심한 극지 영역에서도 물체 경계를 비교적 정확히 인식하게 만든다.

디코더는 인코더 최하위 단계에서 얻은 저해상도 피처맵을 입력으로 받아, 3개의 3×3 컨볼루션‑배치정규화‑ReLU 블록과 bilinear upsampling을 순차적으로 적용해 원본 해상도로 복원한다. 여기서 중요한 점은 디코더가 전통적인 U‑Net 형태가 아니라, 트랜스포머 기반 피처와 전통적인 CNN 연산을 혼합한 하이브리드 구조라는 것이다. 이렇게 함으로써 전역 컨텍스트는 트랜스포머가, 국부적인 경계와 세부 정보는 CNN이 담당하도록 역할을 분담한다.

또한, 인간 시청자가 360도 영상에서 중앙(구면 좌표계 기준)으로 시선을 집중하는 경향을 반영한 Viewing Center Bias(VCB)를 사후 처리 단계에서 가중합한다. VCB는 정규화된 가우시안 형태로, 각 프레임의 중심에 높은 확률을 부여하고 주변으로는 점진적으로 감소한다. 이 편향을 모델 출력에 직접 결합함으로써, 데이터가 부족한 경우에도 인간 시각 특성을 보강한다.

실험에서는 Sport360(스포츠 중심 360도 영상), PVS‑HM(헤드 움직임 기반), VR‑EyeTracking(실제 눈 움직임) 세 데이터셋을 사용했다. 평가 지표는 Pearson Correlation Coefficient(CC), Kullback‑Leibler Divergence(KL), Normalized Scanpath Saliency(NSS) 등을 포함했으며, SalFormer360은 특히 CC에서 8.34% (Sport360), 2.60% (PVS‑HM), 18.60% (VR‑EyeTracking) 향상을 기록했다. Ablation study에서는 (1) 단일 프레임 입력, (2) SegFormer 인코더만 사용, (3) VCB 미사용 등 각각을 제거했을 때 성능 저하가 확인되었으며, 특히 VCB를 제외하면 VR‑EyeTracking에서 CC가 12% 이상 감소한다.

복잡도 측면에서 파라미터 수는 약 17M으로, 기존 3D‑CNN 기반 모델(30M 이상)보다 절반 수준이며, 연산량도 2프레임만 사용하므로 실시간 스트리밍 환경에 적합하다. 또한, 모델은 equirectangular 형식 그대로 입력받아 별도의 구면 컨볼루션이나 cubemap 변환 없이도 높은 정확도를 달성한다는 점에서 구현 비용이 크게 낮아진다.

요약하면, SalFormer360은 (1) 강력한 전역 특징 추출을 위한 트랜스포머 인코더, (2) 효율적인 복원과 세부 강조를 위한 맞춤형 CNN 디코더, (3) 인간 시각 편향을 반영한 Center Bias 통합이라는 세 가지 핵심 요소를 결합해 360도 영상 살리언시 예측에서 기존 방법들을 능가한다. 향후 연구에서는 더 긴 시계열(>10프레임) 학습, 멀티모달(오디오·텍스트) 정보 결합, 그리고 실시간 스트리밍 파이프라인에의 직접 적용을 탐색할 여지가 있다.

360도 비디오를 위한 트랜스포머 기반 시각 주의 예측 모델 SalFormer360

초록

상세 분석

댓글 및 학술 토론

의견 남기기