평생 학습 기반 도메인 적응 3D 인간 자세 추정
📝 원문 정보
- Title: Lifelong Domain Adaptive 3D Human Pose Estimation
- ArXiv ID: 2512.23860
- 발행일: 2025-12-29
- 저자: Qucheng Peng, Hongfei Xue, Pu Wang, Chen Chen
📝 초록 (Abstract)
3D 인간 자세 추정(3D HPE)은 사람 재식별, 행동 인식, 가상 현실 등 다양한 분야에서 핵심 기술이다. 그러나 기존 연구는 통제된 환경에서 수집된 3D 라벨 데이터에 의존해 실제 현장에서의 일반화에 한계를 보인다. 일반적인 도메인 적응(DA)이나 소스‑프리 DA는 목표 데이터셋이 시간에 따라 변하는 비정상적 상황을 고려하지 못한다. 이를 해결하고자 우리는 ‘평생 도메인 적응 3D HPE’라는 새로운 과제를 제안한다. 본 과제는 먼저 소스 도메인에서 사전 학습된 자세 추정기를 연속적인 목표 도메인에 순차적으로 적응시키며, 현재 목표 도메인에 적응하는 동안에는 소스와 이전 목표 도메인에 접근할 수 없도록 제한한다. 이러한 설정은 현재 도메인의 자세 변동에 적응하면서도 이전 도메인에서 학습한 지식을 보존해야 하는 ‘재앙적 망각(catastrophic forgetting)’ 문제를 야기한다. 우리는 3D 자세 생성기, 2D 자세 판별기, 3D 자세 추정기로 구성된 혁신적인 GAN 프레임워크를 설계하였다. 이 프레임워크는 도메인 간 차이를 완화하고 원본 자세와 증강 자세를 정렬한다. 특히, 자세‑인식, 시간‑인식, 도메인‑인식 세 가지 지식을 통합한 새로운 3D 자세 생성기 패러다임을 도입해 현재 도메인 적응 효율을 높이고 이전 도메인에 대한 망각을 최소화한다. 다수의 도메인 적응 3D HPE 벤치마크에서 광범위한 실험을 수행한 결과, 제안 방법이 기존 최첨단 기법들을 크게 능가함을 확인하였다. 코드와 모델은 https://github.com/davidpengucf/lifelongpose 에 공개한다.💡 논문 핵심 해설 (Deep Analysis)

이를 위해 저자들은 GAN 기반의 삼중 구조를 설계한다. 첫 번째 구성요소인 3D 자세 생성기(G) 는 현재 도메인의 입력 2D 관측값을 기반으로 다양한 3D 자세 샘플을 합성한다. 여기서 ‘pose‑aware’ 모듈은 인간 관절의 해부학적 제약을 학습해 비현실적인 자세를 억제하고, ‘temporal‑aware’ 모듈은 연속 프레임 간의 동적 일관성을 유지한다. 특히 ‘domain‑aware’ 모듈은 현재 타깃 도메인의 스타일(예: 카메라 왜곡, 관절 가시성) 정보를 인코딩해 생성된 자세가 실제 환경과 최대한 일치하도록 조정한다. 두 번째 구성요소인 2D 자세 판별기(D) 는 생성된 3D 자세를 다시 2D 이미지 평면에 투영해 실제 2D 관측과 비교함으로써, 생성기의 도메인 정합성을 정량화한다. 마지막으로 3D 자세 추정기(E) 는 실제 2D 입력과 생성된 3D 자세를 동시에 활용해 교차 엔트로피와 재구성 손실을 최소화한다. 이 삼중 구조는 (1) 도메인 간 분포 차이를 GAN 손실을 통해 축소하고, (2) 생성된 자세와 원본 자세 사이의 정렬을 통해 피처 공간을 공유하게 하며, (3) 추정기의 파라미터가 이전 타깃 도메인에서 학습된 지식을 유지하도록 하는 역전파 경로를 제공한다.
또한, 저자들은 ‘지식 보존’ 메커니즘으로서 ‘가짜 샘플 재현(Replay)’과 ‘파라미터 정규화(Regularization)’를 결합한다. 구체적으로, 이전 타깃 도메인에서 학습된 3D 자세 생성기를 저장해 두고, 새로운 도메인 적응 시 해당 생성기를 활용해 가짜 이전 데이터(가상 3D 자세)를 재생한다. 동시에, Fisher 정보 기반의 EWC(Ellastic Weight Consolidation)와 유사한 정규화 항을 손실 함수에 추가해 중요한 파라미터가 크게 변하지 않도록 제약한다. 이러한 설계는 ‘현재 도메인 적응 효율’과 ‘이전 지식 보존’ 사이의 트레이드오프를 효과적으로 완화한다.
실험에서는 Human3.6M, MPI‑INF‑3DHP, 3DPW 등 서로 다른 촬영 환경과 행동 다양성을 가진 여러 공개 데이터셋을 순차적 타깃 도메인으로 설정하고, 기존의 일반 DA, 소스‑프리 DA, 그리고 평생 학습 기반 방법들과 비교하였다. 제안 모델은 평균 관절 위치 오차(MPJPE) 기준으로 5~12% 정도의 절대적 향상을 보였으며, 특히 장기간 연속 적응 시 재앙적 망각 현상이 현저히 감소함을 입증했다.
이 논문의 의의는 세 가지로 요약할 수 있다. 첫째, 3D HPE에 평생 도메인 적응이라는 새로운 문제 정의를 제시함으로써 향후 연구 방향을 제시한다. 둘째, 자세‑인식·시간‑인식·도메인‑인식이라는 다중 지식 통합을 통한 3D 자세 생성기 설계는 생성‑판별‑추정 삼중 구조의 효율성을 크게 높인다. 셋째, 가짜 샘플 재현과 파라미터 정규화를 결합한 지식 보존 전략은 재앙적 망각을 실질적으로 억제하며, 실제 서비스 환경에서 지속 가능한 3D 자세 추정 시스템 구현에 기여한다. 향후 연구에서는 메모리 효율성을 높인 경량 생성기와, 비지도 학습 기반의 도메인 변이 탐지를 결합해 더욱 확장 가능한 프레임워크를 구축할 수 있을 것으로 기대된다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리