텍스트 기반 관계 그래프로 강화된 골격 행동 분할 네트워크

텍스트 기반 관계 그래프로 강화된 골격 행동 분할 네트워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)에서 추출한 텍스트 기반 관계 그래프를 활용해 골격 기반 시간 행동 분할(STAS)의 공간‑시간 모델링과 감독 방식을 동시에 개선한 TRG‑Net을 제안한다. 동적 스페이셜‑템포럴 퓨전 모델링(DSFM)에서는 텍스트 유도 관절 그래프(TJG)를 채널·프레임 수준에서 동적으로 적응시켜 관절 간 관계를 정교하게 포착하고, 핵심 특징을 보존하며 시간적 정보를 통합한다. 절대‑상대 클래스 감독(ARIS)에서는 행동 텍스트 임베딩과 행동 특징 간 대비 학습으로 절대적 클래스 분포를 정규화하고, 텍스트 유도 행동 그래프(TAG)를 이용해 클래스 간 상대적 관계를 강화한다. 또한 무작위 관절 가림과 축 회전을 포함한 공간 인식 강화 처리(SAEP)로 일반화 능력을 높였다. 네 개 공개 데이터셋에서 최첨단 성능을 달성하였다.

상세 분석

TRG‑Net은 기존 STAS 연구가 갖는 두 가지 근본적인 한계를 동시에 해결한다. 첫째, 관절 간의 내재적 의미 관계를 무시하고 단순히 그래프 컨볼루션이나 어텐션으로 정적인 연결성을 학습하는 방식은 행동에 따라 변하는 미세한 상관관계를 포착하지 못한다. 둘째, 기존의 원‑핫 라벨과 교차 엔트로피 기반 감독은 클래스 간의 의미적 거리와 유사성을 반영하지 않아, “걷기”와 “달리기”와 같은 유사 행동을 구분하는 데 한계가 있다.

TRG‑Net은 이러한 문제를 해결하기 위해 LLM(GPT‑4)으로부터 각 관절과 행동에 대한 서술문을 생성하고, BERT를 이용해 고차원 텍스트 임베딩을 얻는다. 관절 임베딩 간 L2 거리와 역정규화를 통해 관절 간 의미적 유사성을 나타내는 TJG를 구축하고, 행동 임베딩으로부터 TAG를 만든다. 이러한 텍스트 기반 그래프는 사전 지식으로서 모델에 주입된다.

DSFM에서는 먼저 입력 골격 시퀀스를 채널‑레벨 동적 GCN과 프레임‑레벨 동적 GCN으로 처리한다. 동적 어댑터는 TJG의 가중치를 현재 프레임의 특징과 채널 특성에 맞게 실시간으로 재조정함으로써, 예를 들어 “손”과 “팔꿈치” 사이의 관계가 “달리기”와 “앉기”에서 다르게 반영되도록 한다. 이후 스페이셜‑템포럴 퓨전 모듈이 핵심 스페이셜 특징을 보존하면서 템포럴 컨볼루션(Linformer 기반)과 결합해 장거리 시간 의존성을 효율적으로 학습한다.

ARIS는 두 단계의 감독을 제공한다. 절대‑상대 감독의 절대적 부분에서는 행동 특징 f_i와 대응 텍스트 임베딩 a_i 사이에 대비 손실(NCE)을 적용해, 같은 행동의 특징이 텍스트와 높은 정렬도를 갖도록 강제한다. 이는 클래스 간 절대적 분포를 정규화한다. 상대적 부분에서는 TAG의 인접 행렬을 이용해, 행동 특징 간의 거리 손실(KL 발산)을 최소화함으로써 “걷기‑달리기”와 같은 유사 클래스는 가까이, “걷기‑앉기”는 멀리 배치되도록 한다.

SAEP는 데이터 증강 차원에서 두 가지 변형을 도입한다. 무작위 관절 가림은 특정 관절 정보를 의도적으로 누락시켜 모델이 남은 관절들만으로도 행동을 인식하도록 강인성을 부여한다. 축 회전은 전체 골격을 임의의 축을 중심으로 회전시켜, 시점에 무관한 방향성을 학습하도록 만든다. 두 변형은 동시에 적용될 수 있어, 실제 환경에서의 관절 가려짐이나 카메라 뷰 변화를 효과적으로 시뮬레이션한다.

실험에서는 PKU‑MMD(X‑sub, X‑view), LARa, MCFS‑130 네 데이터셋을 사용해 기존 최첨단 방법(GCN‑based, TCN‑based, Transformer‑based, 라사 등)과 비교하였다. 모든 벤치마크에서 프레임 정확도, 편집 거리, F1@10 등 주요 지표에서 평균 2~4%p 이상의 향상을 기록했으며, 특히 행동 간 유사도가 높은 경우(예: 걷기‑달리기)에서 오류 감소가 두드러졌다. Ablation 연구에서는 TJG 없이 DSFM만 사용했을 때와 대비했을 때 1.8%p, TAG 없이 ARIS만 사용했을 때 2.1%p, SAEP 없이 전체 모델을 사용했을 때 각각 성능 저하를 확인했다.

한계점으로는 LLM 기반 텍스트 그래프 생성에 의존함에 따라 사전 정의된 관절·행동 명칭이 정확히 일치해야 하고, 새로운 동작이나 관절이 추가될 경우 재학습이 필요하다는 점을 들 수 있다. 또한 대비 학습에 사용되는 텍스트 임베딩 차원이 고정돼 있어, 매우 세밀한 동작 차이를 완전히 구분하기엔 제한적일 수 있다. 향후 연구에서는 멀티모달 프롬프트 튜닝과 동적 그래프 업데이트 메커니즘을 도입해 이러한 제약을 완화할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기