포즈와 세그멘테이션으로 가볍게 구현한 독립 수화 인식

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 MediaPipe 기반 손·얼굴 포즈 추출과 배경 세그멘테이션을 결합한 경량 파이프라인을 제안한다. 추출된 관절 좌표를 정규화·증강한 뒤, Per‑Frame Center of Mass 정규화와 Pose‑Transformer 혹은 양방향 LSTM으로 시간 정보를 모델링한다. 영상 입력을 배제하고 좌표만 사용함으로써 연산량을 크게 줄였으며, 100개 빈도 높은 글로스에 대해 60% 수준의 검증 정확도를 달성한다.

상세 분석

이 연구는 ISLR(독립 수화 인식) 분야에서 두 가지 핵심 문제—데이터 부족과 연산 비용—를 동시에 해결하려는 시도로 눈에 띈다. 첫 번째 단계는 MediaPipe를 이용해 손과 얼굴의 3D 관절 좌표를 실시간으로 추출하고, 이를 기반으로 배경을 0으로 마스킹하는 세그멘테이션을 수행한다. 이렇게 하면 RGB 영상의 고차원 정보를 크게 축소하면서도 수화의 핵심 시각적 요소를 보존한다. 두 번째 단계에서는 좌표 정규화 방식을 세 가지 실험한다. 전통적인 코‑노즈(Nose‑Anchored) 정규화는 노이즈에 취약하고, 얼굴 중심 정규화는 자세 변화에 대응하지 못한다는 한계를 보였다. 최종적으로 채택한 Per‑Frame Center of Mass 정규화는 매 프레임마다 모든 관절의 질량 중심을 원점으로 삼고, 좌표를

포즈와 세그멘테이션으로 가볍게 구현한 독립 수화 인식

초록

상세 분석

댓글 및 학술 토론

의견 남기기