전체 이미지 기반 머리 자세 추정과 시각 언어 모델 통합

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 객체 탐지와 시각적 grounding 능력을 갖춘 VLM인 CogVLM에 머리 자세 추정(HPE) 기능을 직접 삽입한다. 기존 CNN 기반 HPE 모델이 크롭된 얼굴 이미지에 의존하는 반면, 제안된 HPE‑CogVLM은 전체 장면을 입력으로 받아 LoRA 레이어 기반 ‘winner‑takes‑all’ 병합 기법으로 HPE와 기존 grounding 지식을 동시에 보존한다. 교차 데이터셋 평가에서 평균 절대 오차(MAE)를 31.5 % 감소시켰으며, 무효 응답 비율도 크게 낮추었다.

상세 분석

본 연구는 머리 자세 추정(HPE) 과제에 대한 근본적인 패러다임 전환을 시도한다. 기존의 CNN 기반 HPE 모델은 얼굴이나 머리 부분을 크롭한 이미지에 의존해 2D‑3D 변환을 수행했으며, 데이터셋이 제한적이고 배경·다중 인물 상황에 취약했다. 저자들은 이러한 한계를 극복하기 위해 시각‑언어 모델(VLM)인 CogVLM의 grounding 메커니즘을 활용한다. CogVLM은 텍스트 프롬프트에 따라 이미지 내 객체를

전체 이미지 기반 머리 자세 추정과 시각 언어 모델 통합

초록

상세 분석

댓글 및 학술 토론

의견 남기기