지오태깅된 비디오의 공통 시야 기반 유사도 측정

초록

본 논문은 영상의 촬영 방향과 위치 정보를 결합한 새로운 궤적 유사도 측정 방법을 제안한다. 기존 연구가 단순히 위치 혹은 선분 간 거리만을 고려한 데 반해, 저자는 가장 큰 공통 시야(Largest Common View, LCV)를 정의하여 이동 객체들의 시야가 겹치는 정도를 정량화한다. 효율적인 그룹화와 연산량 감소 기법을 도입해 실제 데이터셋에서 기존 방법 대비 정확도와 속도 모두 향상됨을 실험적으로 입증한다.

상세 요약

이 논문은 “geo‑tagged video”라는 특수한 데이터 형태를 대상으로, 단순한 공간 좌표만이 아니라 카메라의 시야(FoV)까지 고려한 궤적 유사도 측정 문제를 새롭게 정의한다. 기존 연구들은 주로 두 객체의 위치 차이(예: Euclidean distance) 혹은 선분 간의 공간 관계(예: Hausdorff distance, Fréchet distance)를 활용했으며, 이러한 접근법은 객체가 동일한 경로를 따라 이동하더라도 촬영 방향이 다르면 유사도를 낮게 평가하는 한계를 가지고 있었다. 저자는 이러한 한계를 극복하기 위해 “Largest Common View”(LCV)라는 개념을 도입한다. LCV는 두 비디오의 촬영 위치와 시야 각도를 기반으로, 두 시야가 겹치는 영역 중 가장 넓은 부분을 정량화한 값이다. 구체적으로, 각 프레임을 3차원 구면 좌표계에 매핑하고, 두 구면 위의 시야 원뿔을 교차시켜 얻어지는 공통 구역의 면적을 계산한다. 이 면적을 정규화하여 0~1 사이의 유사도 점수로 변환한다.

알고리즘 흐름은 크게 네 단계로 구성된다. 첫째, 입력 비디오 스트림에서 GPS 좌표와 카메라 내부 파라미터(초점 거리, 센서 크기)를 추출해 시야 원뿔을 정의한다. 둘째, 시간 동기화를 위해 동적 시간 왜곡(DTW) 기반의 프레임 매칭을 수행한다. 셋째, 매칭된 프레임 쌍마다 LCV를 계산하고, 전체 궤적에 대한 평균 혹은 가중 평균을 구한다. 넷째, LCV 기반 유사도 행렬을 이용해 클러스터링(예: DBSCAN) 혹은 그래프 기반 그룹화를 수행한다.

연산량 감소를 위해 저자는 두 가지 최적화 기법을 제시한다. 첫째, 시야 원뿔의 교차 계산을 삼각법 대신 사전 계산된 lookup table을 활용해 O(1) 시간에 근사값을 얻는다. 둘째, 프레임 샘플링 비율을 적응적으로 조정하는 방법으로, 시야 변화가 적은 구간에서는 샘플링 간격을 늘려 불필요한 계산을 줄인다. 이러한 최적화는 전체 파이프라인의 시간 복잡도를 O(N·M)에서 실질적으로 O(N·log M) 수준으로 낮춘다(N, M은 각각 두 비디오의 프레임 수).

실험에서는 도심 교통, 드론 촬영, 모바일 사용자 기록 등 다양한 실제 데이터셋을 사용했다. 평가 지표는 기존 거리 기반 유사도(예: Hausdorff), 시점 기반 유사도(예: Viewpoint Similarity)와 비교했을 때, 제안 방법이 평균 12% 이상의 정밀도 향상을 보였으며, 최적화 후 평균 처리 시간은 기존 대비 35% 감소하였다. 특히, 시야가 크게 변하는 상황(예: 급격한 회전, 고도 변화)에서도 LCV 기반 유사도가 안정적으로 높은 값을 유지한다는 점이 강조된다.

이 논문의 주요 기여는 (1) 시야 정보를 정량화한 새로운 유사도 정의, (2) 시간 동기화와 시야 교차 계산을 결합한 효율적인 알고리즘, (3) 실시간 적용을 가능하게 하는 연산량 감소 기법이다. 다만, 카메라 파라미터가 정확히 알려지지 않은 경우 LCV 추정 오차가 발생할 수 있으며, GPS 오차가 큰 환경에서는 추가 보정이 필요하다는 제한점도 언급된다. 향후 연구에서는 IMU 데이터와 딥러닝 기반 시야 추정 모델을 결합해 이러한 문제를 보완하고, 대규모 스트리밍 환경에서의 분산 처리 방안을 모색할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)