비대칭 시공간 마스킹으로 배우는 골격 행동 표현

비대칭 시공간 마스킹으로 배우는 골격 행동 표현
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 골격 기반 행동 인식을 위한 자기지도 학습 프레임워크인 ASMa를 제안한다. 고차수 관절·저속 프레임과 저차수 관절·고속 프레임을 각각 마스킹하는 비대칭 시공간 마스킹 전략을 도입해 균형 잡힌 특징을 학습하고, 두 마스크 뷰의 표현을 정렬하는 학습 가능한 정렬 모듈을 설계한다. 또한 지식 증류를 활용해 경량 모델을 얻어 저자원 디바이스에 적용 가능하도록 한다. 실험 결과 NTU‑RGB+D 60·120, PKU‑MMD 데이터셋에서 기존 SSL 방법 대비 2.7‑4.4% 향상된 파인튜닝 성능과 5.9% 수준의 전이 학습 이득을 보였으며, 경량 모델은 파라미터 91.4% 감소와 3배 빠른 추론을 달성한다.

상세 분석

ASMa는 골격 시퀀스를 C×T×V 형태의 텐서로 정의하고, 두 개의 ST‑GCN 인코더 fθ와 fϕ를 비대칭 마스킹 전략으로 사전학습한다. 공간 마스킹은 관절의 그래프 중심성(차수)을 기반으로 고차수 관절을 우선 마스크하는 고차수 마스킹(HDSM)과 저차수 관절을 우선 마스크하는 저차수 마스킹(LDSM)으로 구분한다. 이는 관절 구조적 안정성(척추 등)과 주변 관절(손·발)의 움직임 차이를 반영한다. 시간 마스킹은 프레임별 평균 관절 변위로 정의한 모션 스코어를 이용해, 최고 모션 프레임을 마스크하는 고모션 마스킹(HMTM)과 최저 모션 프레임을 마스크하는 저모션 마스킹(LMTM)으로 구현한다. 이렇게 생성된 네 개의 마스크 뷰(θ‑j, θ‑m, ϕ‑j, ϕ‑m)는 각각 앵커, 공간, 시간 스트림에 입력된다. 각 스트림은 동일한 ST‑GCN 백본을 공유하고, Barlow Twins 손실을 적용해 앵커와 마스크드 스트림 간 교차 상관을 최대화하면서 차원 간 중복을 최소한다. 손실은 Lk1과 Lk2로 구성되며, λ 정규화 파라미터를 통해 상관 행렬의 대각선은 1에 가깝게, 비대각선은 0에 가깝게 만든다. 두 인코더의 총 손실 LASMa는 Lθtotal과 Lϕtotal의 합으로 정의된다.

프리트레인 후, 특징 정렬 모듈은 양 인코더의 시퀀스 임베딩 hθ와 hϕ에 양방향 멀티헤드 어텐션을 적용한다. Q, K, V를 각각 교차 매핑해 서로의 정보를 보강하고, 정렬된 특징을 결합해 최종 분류기에 전달한다. 이 과정은 비대칭 마스킹으로 학습된 상보적 정보를 효과적으로 통합한다.

경량화 단계에서는 사전학습된 교사 모델의 로짓을 이용해 작은 학생 모델 fS를 지식 증류한다. 학생 모델은 파라미터 수와 연산량을 크게 줄이면서도 교사의 정규화된 출력 분포를 모방하도록 학습한다. 실험에서는 파라미터 91.4% 감소와 3배 빠른 추론 속도를 달성했으며, 정확도 손실은 미미했다.

다양한 실험에서 ASMa는 기존 SSL 방법(예: CrossCLR, AimCLR, SkeletonMAE 등) 대비 선형 프로빙에서 1‑3%, 파인튜닝에서 2.7‑4.4%, 노이즈 데이터 전이에서 4‑6% 향상을 보였다. 특히 고차수·저차수 관절과 고·저 모션 프레임을 동시에 학습함으로써, 움직임이 적은 관절에 편향된 기존 방법들의 한계를 극복하고, 복잡한 동작과 다양한 카메라 뷰에 대한 일반화 능력을 강화했다. 또한, 학생 모델이 선형 프로빙된 교사보다 높은 성능을 보이는 현상은 자기지도 증류가 표현의 일반성을 더욱 촉진한다는 새로운 통찰을 제공한다.

전반적으로 ASMa는 골격 기반 행동 인식에서 마스킹 편향을 해소하고, 효율적인 특징 정렬과 경량화 전략을 결합함으로써, 연구와 실무 양쪽 모두에 실용적인 솔루션을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기