H2OFlow: 3D 생성 모델과 밀집 흐름으로 인간‑물체 어포던스 학습
초록
H2OFlow는 3D 생성 모델로 만든 합성 인간‑물체 상호작용 데이터를 이용해, 별도 라벨링 없이 접촉, 방향, 공간 점유라는 세 가지 어포던스를 동시에 학습한다. 포인트 클라우드 기반의 밀집 디퓨전 흐름(dense diffused flow)을 예측함으로써 실제 물체에 대한 어포던스 맵을 추정하고, 실제 환경에서도 기존 방법보다 높은 일반화 성능을 보인다.
상세 분석
본 논문은 인간‑물체 상호작용(HOI) 어포던스를 “접촉(contact)”, “방향(orientation)”, “공간 점유(spatial occupancy)”라는 세 축으로 정의하고, 이를 전통적인 라벨 기반 접근법이 아닌 완전 합성 데이터와 확률적 흐름 모델을 통해 학습한다는 점에서 혁신적이다. 먼저 3D 생성 모델(예: 텍스트‑조건부 HOI 생성 네트워크)을 활용해 다양한 물체와 인간의 동작 시퀀스를 메쉬 형태로 생성한다. 이 메쉬를 포인트 클라우드로 변환하고, 인간의 초기 자세를 표준 T‑pose SMPL 메쉬에서 샘플링한 H₀와 목표 자세 H 사이의 점별 변위 F를 정의한다. 여기서 F는 “밀집 흐름”이라 불리며, 각 인간 포인트가 어떻게 이동해야 목표 상호작용을 구현하는지를 나타낸다.
핵심 기술은 이러한 흐름을 조건부 디퓨전 모델(pθ)로 학습하는 것이다. 디퓨전 과정에서 F에 가우시안 노이즈를 단계적으로 주입하고, 역과정을 통해 노이즈가 제거된 흐름을 복원하도록 네트워크를 훈련한다. 이때 물체 포인트 클라우드 O가 조건으로 들어가므로, 동일한 물체에 대해 다중 모달(왼손·오른손, 다양한 접촉 부위 등) 흐름을 샘플링할 수 있다. 학습된 모델은 새로운 물체 포인트 클라우드만 입력받아 여러 plausible한 인간 자세를 생성하고, 생성된 자세와 흐름을 이용해 접촉 확률 Cᵢⱼ, 방향 점수 Rᵢⱼ, 그리고 3D 격자 상의 점유 확률 Sᵢⱼ을 추정한다.
이러한 파이프라인은 두 가지 실용적 장점을 제공한다. 첫째, 메쉬 기반 어포던스 방법이 요구하는 watertight mesh와 정규화된 노멀 계산을 회피하고, 노이즈가 섞인 실제 센서 데이터(예: RGB‑D 스캔)에도 직접 적용 가능하다. 둘째, 합성 데이터만으로 학습했음에도 불구하고, 실제 물체에 대한 정량적 평가(ContactNet, HOI‑Net 등 기존 벤치마크)에서 상위 성능을 기록한다. 실험에서는 물체 카테고리별 일반화, 다양한 인간 자세 다양성, 그리고 공간 점유 패턴 재현 능력을 정량·정성적으로 검증하였다.
한계점으로는 현재 흐름 예측이 포인트 수준에서만 이루어져 물체와 인간 사이의 물리적 충돌 검증이 부족하고, 텍스트‑조건부 생성 모델의 품질에 크게 의존한다는 점이다. 향후 연구에서는 물리 시뮬레이션과 결합해 충돌 안전성을 보강하고, 멀티모달(이미지·텍스트·음성) 입력을 통한 어포던스 조건부 제어를 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기