포즈 선택 최대 풀링으로 영상 얼굴 유사도 측정

본 논문은 비정형 환경에서 촬영된 얼굴 영상 간 정체성 유사도를 정확히 측정하기 위해 두 가지 핵심 문제—머리 자세(pose) 변화와 영상 처리 비용—를 동시에 해결하고자 한다. 기존 연구들은 프레임별 딥 특징을 평균하거나 전체 프레임을 모두 사용해 영상 수준 표현을 만든다. 그러나 이러한 접근법은 자세 변화가 큰 경우 평균 특징이 정체성 정보를 희석시켜 성능 저하를 초래한다. 저자들은 먼저 영상 내 각 프레임에 대해 3D 회전 각(yaw, pitch, roll)을 추정한다. 이를 위해 얼굴 랜드마크 검출, 호모그래피 추정, 그리고 회전 각 계산 과정을 거친다. 추정된 자세 벡터 집합을 K‑means 클러스터링에 입력하여, 자세가 유사한 프레임들을 K개의 클러스터로 묶는다. 클러스터링 목표는 두 가지: (1) 클러스터 내부 거리(SSD)를 최소화해 비슷한 자세를 한 그룹으로 모으고, (2) 클러스터 간 거리(SSD)를 최대화해 서로 다른 자세를 구분한다. 이는 전통적인 K‑means 목적에 클래스 간 분산을 추가한 형태이며, 실제 구현에서는 K값을 교차 검증으로 선택하고, 클러스터 중심을 구한 뒤 각 클러스터에서 중심에 가장 가까운 프레임을 대표 프레임으로 선정한다. 선택된 K개의 프레임은 이후 정면화(frontalization) 과정을 거쳐 자세에 의한 변형을 최소화한다. 정면화는 호모그래피를 이용해 눈, 코, 입 등 주요 랜드마크를 기준 좌표에 맞추는 방식이며, 프로파일(측면) 자세는 완전한 정면화가 어려워도 주요 특징을 보존한다. 정면화된 프레임에 사전 학습된 VGG‑Face와 같은 딥 CNN을 적용해 고차원 특징 벡터를 추출한다. 이렇게 얻은 특징 집합을 각각 A={a₁,…,a_K}, B={b₁,…,b_K}라 하면, 두 영상 간 유사도는 다음과 같이 정의한다: S(A,B)=max_{i,j} cos(a_i, b_j) 즉, 모든 특징 쌍의 코사인 유사도를 계산한 뒤 최댓값을 취한다. 이 방식은 “가장 유사한 두 프레임”을 찾아내는 최근접 이웃 기반 측정법이며, 정체성 차이가 큰 경우에는 높은 유사도 점수가 나오지 않도록 강건하게 설계되었다. 실험은 YouTube Face(YTF) 데이터셋의 5,000쌍 영상에 대해 수행되었다. 전체 프레임을 평균 풀링한 VGG‑Face와 비교했을 때, K=9~12 정도의 작은 K값에서도 정확도 차이가 거의 없으며, 연산량은 프레임 수가 수십 배 감소함에 따라 크게 줄어든다. 이는 실시간 시스템이나 모바일 디바이스와 같이 연산 자원이 제한된 환경에서도 높은 정확도를 유지할 수 있음을 의미한다. 또한, 저자는 포즈와 정체성을 명시적으로 분리함으로써 표정, 조명, 배경 등 다른 변이 요인에 대해서도 동일한 프레임 선택·풀링 전략을 적용할 수 있음을 제시한다. 논문의 주요 기여는 다음과 같다. 첫째, 3D 포즈 기반 K‑means 클러스터링을 이용해 영상 내 포즈 다양성을 보존하면서도 프레임 수를 K개로 압축하는 효율적인 샘플링 방법을 제안하였다. 둘째, 선택된 프레임 집합에 대해 max‑correlation 풀링을 적용해 정체성 중심 유사도를 측정하는 새로운 거리 측정 방식을 도입하였다. 셋째, 전체 프레임 평균 풀링 대비 연산량을 크게 감소시키면서도 동등한 성능을 달성함을 실험적으로 입증하였다. 한계점으로는 포즈 추정 단계가 정확하지 않을 경우 클러스터링 결과가 왜곡될 수 있다는 점, 현재는 표정·조명 변동을 별도로 다루지 않아 복합적인 변이가 강하게 작용하는 상황에서는 추가적인 정규화가 필요할 수 있다는 점을 들 수 있다. 향후 연구에서는 다중 변이 요인을 동시에 고려하는 다중 클러스터링 혹은 어텐션 기반 프레임 선택 기법을 도입해 더욱 일반화된 영상 얼굴 인증 시스템을 구축할 수 있을 것이다.

포즈 선택 최대 풀링으로 영상 얼굴 유사도 측정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기