중요 동작에 초점을 맞춘 제스처 인식을 위한 가중 그래프 경로 탐색 기법

본 논문은 손동작 영상에서 광류(optical flow)를 이용해 “부분 동작”(partial action)을 추출하고, 이를 저차원 고유공간(eigenspace)으로 변환한다. 변환된 특징벡터 시퀀스를 가중 그래프에 매핑하여 중요한 부분 동작에 낮은 비용을 부여함으로써 최적 경로를 탐색한다. 실험 결과, 중요한 동작에 가중치를 부여했을 때 유사한 수화 단어들의 인식률이 크게 향상됨을 확인하였다.

저자: Kazumoto Tanaka

본 논문은 수화와 같은 복잡한 손동작 인식에서, 전체 동작이 아닌 구체적인 “부분 동작”(partial action)에 초점을 맞춘 새로운 인식 프레임워크를 제안한다. 기존 연구들은 주로 Hidden Markov Model, Dynamic Time Warping, 신경망 등을 이용해 전체 시퀀스를 모델링했지만, 부분 동작이 의미 구분에 핵심적인 경우 이를 충분히 반영하지 못한다는 한계를 지적한다. 제안된 방법은 크게 네 단계로 구성된다. 첫째, 입력 영상에서 광류(optical flow)를 계산한다. 광류는 프레임 간 픽셀 이동을 벡터 형태로 표현하며, 움직임의 방향과 크기를 동시에 담는다. 이후 8-인접 라벨링을 통해 흐름 벡터들을 연결하고, 시간 축을 따라 흐름이 연속되는 경우 동일 라벨을 부여한다. 라벨링 과정에서는 벡터 간 각도 차이가 사전 정의된 임계값을 초과하면 라벨링을 중단해 흐름의 급격한 변화(예: 손가락 움직임)도 별도 라벨로 구분한다. 둘째, 라벨별로 흐름 집합을 시간 순서대로 누적해 하나의 “부분 동작 이미지”를 만든다. 이때 라벨이 일정 프레임 이하로 나타나는 경우는 노이즈로 판단해 제거한다. 결과적으로 각 라벨은 특정 움직임(예: 손목 회전, 엄지 움직임 등)을 의미하는 이미지 집합이 된다. 셋째, 부분 동작 이미지를 고차원 벡터(v)로 전개하고, 전체 데이터의 공분산 행렬을 이용해 고유벡터(eigenvectors)를 추출한다. 논문에서는 상위 4개의 고유벡터를 선택해 4차원 고유공간(eigenspace)을 구성하였다. 각 부분 동작 이미지는 이 공간에 투영돼 저차원 특징벡터(u) 시퀀스를 만든다. 넷째, 이러한 특징벡터 시퀀스를 이용해 사전(dictionary)을 만든다. 동일 제스처를 여러 사람·여러 번 수행해 얻은 특징벡터들을 클러스터링하고, 각 클러스터를 평균 µ와 공분산 Σ를 갖는 k차원 정규분포로 모델링한다. 따라서 사전 내 한 제스처는 정규분포 클러스터들의 순서(sequence)로 표현된다. 인식 단계에서는 입력된 특징벡터 시퀀스 Q와 사전 내 제스처 P를 매칭한다. 매칭은 두 시퀀스를 가로·세로 축에 배치한 2차원 격자 그래프 G_PQ에서 수행된다. 각 격자점 (i, j)에서 P_i와 Q_j 사이의 마할라노비스 거리 d_ij를 계산하고, d_ij가 임계값 이하이면 두 요소가 매치된 것으로 간주한다. 매치가 성립하면 대각선(삽입·삭제 비용 0) 에지를 추가하고, 비매치 경우 수평·수직 에지는 비용 1을 부여한다. 핵심적인 혁신은 “중요 부분 동작”에 대한 가중치 조정이다. 특정 클러스터 c_k가 중요한 동작이라 판단되면, 해당 클러스터와 매치되는 모든 대각선 에지의 비용을 0이 아닌 작은 값(예: 0.1)으로 낮춘다. 이렇게 하면 최단 경로 탐색(Dijkstra 알고리즘) 시 중요한 동작이 포함된 경로가 우선 선택된다. 최단 경로는 LCS(Longest Common Subsequence)와 동일하며, 경로 길이를 정규화한 Sim(P,Q) = LCS(P,Q) / max(|P|,|Q|) 로 인식 확신도를 산출한다. 실험은 일본 수화의 네 개 단어(‘say’, ‘order’, ‘return’, ‘lend’)를 대상으로 진행되었다. 각 단어는 두 피험자가 30번씩 수행해 사전을 구성하고, 추가 네 명이 20번씩 수행한 데이터를 테스트에 사용했다. 영상은 320×240 해상도, 60fps, OpenCV 기반으로 처리하였다. 결과는 두 그룹(A: 사전 구축 시 사용한 피험자, B: 다른 피험자) 모두에서, 중요한 동작에 가중치를 부여한 경우 인식률이 향상됨을 보여준다. 구체적으로 그룹 A는 ‘say’ 69.0%, ‘order’ 70.5%, ‘return’ 77.0%, ‘lend’ 76.0%를 기록했으며, 평균 79.5%를 달성했다. 반면 가중치를 적용하지 않은 경우 평균 인식률은 76.5%에 그쳤다. 특히 ‘lend’와 ‘return’처럼 엄지 움직임이 구분 포인트인 경우, 가중치 적용이 인식률을 10% 이상 끌어올렸다. 논문은 또한 인식률 저하 원인으로 시작 위치 변동, 피험자 간 동작 습관 차이, 손·손가락 형태 정보 부재 등을 지적한다. 이를 보완하기 위해 위치 정규화, Gaussian Mixture Model을 통한 클러스터 다중화, 손 모양 특징 통합 등을 향후 연구 과제로 제시한다. 결론적으로, 부분 동작에 대한 가중 그래프 기반 매칭은 유사 제스처 구분에 효과적이며, 연산 비용이 비교적 낮아 실시간 시스템에 적용 가능성이 높다. 향후 다양한 언어·동작에 대한 확장과 로봇 제어 등 실용적 응용이 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기