스마트 안경과 시계만으로 인간 물체 상호작용 복원 ECHO
초록
ECHO는 머리와 손목의 3점 트래킹 정보만으로 인간 자세, 물체 궤적, 접촉 동역학을 동시에 복원하는 최초의 통합 프레임워크이다. 독립적인 노이즈 스케줄을 갖는 3변량 확산 과정을 도입해 인간·물체·접촉 간 상호 의존성을 모델링하고, 부분 관측이나 간헐적 트래킹에도 강인하게 동작한다. 대규모 인간 모션 데이터와 소규모 HOI 데이터의 혼합 학습을 통해 강력한 사전 지식을 습득하면서도 상호작용의 미세한 특징을 포착한다.
상세 분석
ECHO는 기존 연구가 RGB 영상이나 전신 IMU와 같은 풍부한 센서에 의존하던 점을 탈피해, 스마트 안경과 손목 밴드에서 제공되는 3점(머리, 양손) 위치·방향 정보만을 입력으로 사용한다. 핵심 기술은 ‘삼변량(diffusion) 확산 과정’으로, 인간 자세(H), 물체 궤적(O), 접촉 시퀀스(I)를 각각 독립적인 시간 스케줄(T_H, T_O, T_I)을 갖는 노이즈 흐름에 따라 점진적으로 섞은 뒤, 역방향에서 하나의 트랜스포머 기반 디노이징 네트워크(ECHO_ψ)로 원본을 복원한다. 이 설계는 세 모달리티가 서로 다른 관측 빈도와 정확도를 가질 때도 각각의 노이즈 레벨을 조절해 최적의 학습을 가능하게 한다.
입력 조건부(C)는 머리와 손의 상대 변환(ΔT_head, ΔT_hands), 정규화된 머리·손 회전(R_can_head, R_can_hands), 그리고 머리와 손 사이 거리(h_t_head) 등으로 구성된다. 물체는 사전 제공된 메쉬와 클래스 원-핫 라벨을 통해 전역 조건(C_O)으로 인코딩되며, 물체의 자세는 머리 기준 좌표계에서 SE(3) 변환(R_O, t_O) 시퀀스로 표현된다. 인간은 SMPL‑X 파라미터 중 몸통 자세 θ_H와 머리 위치 T_H만을 사용하고, 자세 복원 시 헤드 포지션을 3점 트래킹과 정렬한다.
접촉은 물체와 인간 표면 사이 거리 d(p, V_O)를 시그모이드 함수로 정규화한 값(c_HOI)와 지면·다리 접촉(c_Env)으로 구성된다. 이 연속적인 접촉 신호는 학습 시 강력한 자기 지도(supervised) 역할을 하며, 추론 단계에서는 물체·인간 움직임에 물리적 일관성을 부여한다.
네트워크 아키텍처는 토큰화된 조건(C)와 각 모달리티의 현재 상태(노이즈 혹은 관측) 토큰을 결합한 뒤, DiT(디퓨전 트랜스포머) 블록을 여러 층 쌓아 처리한다. 각 모달리티마다 별도의 디노이징 스텝을 두어, 예를 들어 인간 자세는 더 많은 스텝을 할당하고 물체는 적은 스텝을 할당하는 등 유연한 스케줄링이 가능하다.
추론 시 ‘스무스 인페인팅’ 기법을 도입해, 이전 윈도우에서 얻은 예측을 현재 윈도우의 오버랩 구간에 부드럽게 블렌딩한다. 기존의 윈도우‑별 독립 추론은 경계에서 급격한 움직임 변화를 초래했지만, ECHO는 매 디퓨전 스텝마다 과거와 현재 예측을 가중 평균해 연속적인 시퀀스를 생성한다. 이는 실시간 스트리밍 상황에서도 임의 길이의 시퀀스를 끊김 없이 처리할 수 있게 한다.
학습 데이터는 대규모 인간 전신 모션 컬렉션인 AMASS와, 물체와의 상호작용을 포함한 BEHAVE, OMOMO 등 소규모 HOI 데이터셋을 혼합해 사용한다. 인간 전용 데이터는 인간 자세 사전(prior)을 강화하고, HOI 데이터는 접촉·물체 움직임의 미세한 패턴을 학습한다. 손실 함수는 디노이징 L2 손실 외에 접촉 일관성, 물체‑인간 거리 제약, 그리고 SMPL‑X 파라미터의 정규화 항을 포함한다.
실험 결과, ECHO는 기존의 전신 IMU 기반 방법이나 RGB 기반 HOI 복원 모델보다 인간 자세 오류(RMSE), 물체 궤적 평균 절대 오차(MAE), 접촉 정확도(F1) 모두에서 현저히 우수한 성능을 보였다. 특히 부분 관측(예: 손목 트래킹이 일시적으로 사라짐) 상황에서도 성능 저하가 미미했으며, 다양한 입력 조합(인간 자세 + 물체 관측, 혹은 접촉만 제공)에서도 유연하게 동작한다. Ablation study에서는 삼변량 확산의 독립 스케줄링이 단일 스케줄 대비 12% 이상의 정확도 향상을 가져왔으며, 스무스 인페인팅이 시퀀스 경계에서의 jerk 현상을 85% 감소시켰다.
결론적으로, ECHO는 제한된 웨어러블 센서만으로도 인간·물체·접촉을 동시에 모델링할 수 있는 범용 프레임워크를 제시한다. 독립적인 확산 스케줄링, 조건부 트랜스포머 설계, 그리고 스무스 인페인팅 기법은 향후 실시간 XR, 로보틱스, 재활 치료 등 다양한 분야에 적용 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기