비디오 혼잡 장면을 위한 하즈 및 움라 위치 분류 시스템
초록
본 논문은 HUER 데이터셋을 활용해 하즈와 움라 의식의 6가지 장소를 자동으로 구분하는 시스템을 제안한다. 영상 전처리·샷 경계 검출·배경·전경 분할 후, 색·텍스처·동작 특징을 추출하고 KNN, ANN, SVM 분류기로 학습한다. 실험 결과 90 % 이상의 정확도를 달성해 기존 방법보다 우수함을 입증한다.
상세 분석
이 연구는 종교 의식 영상이라는 특수하고 복잡한 도메인에서 장소 인식을 수행한다는 점에서 의미가 크다. 먼저 저자들은 기존에 공개된 Hajj‑Umrah 영상 데이터가 부족하다는 문제를 인식하고, 6개의 대표 의식 장소(예: 타와프, 사에, 미라 등)를 포함한 HUER(Hajj & Umrah Event Recognition) 데이터셋을 자체 구축하였다. 데이터셋은 다양한 조명, 인파 밀도, 카메라 각도, 날씨 조건을 반영하도록 설계돼 실제 현장 상황을 충실히 재현한다. 각 영상은 프레임 단위로 라벨링되었으며, 이는 후속 연구에 중요한 벤치마크가 된다.
시스템 파이프라인은 크게 네 단계로 나뉜다. 1) 전처리 단계에서는 영상의 해상도를 통일하고 색상 보정을 수행해 색 왜곡을 최소화한다. 2) 샷 경계 검출은 히스토그램 차이와 에너지 기반 방법을 결합해 급격한 장면 전환을 정확히 포착한다. 이는 이후 세그멘테이션 단계에서 연속된 프레임을 동일한 의식 장소로 묶는 데 필수적이다. 3) 배경·전경 분할은 Gaussian Mixture Model(GMM) 기반의 움직임 모델과 GrabCut 같은 에너지 최소화 기법을 혼합해, 대규모 인파 속에서도 의식 수행자와 주변 배경을 효과적으로 구분한다. 특히 인파가 밀집한 상황에서도 전경 객체(예: 카바, 사위 등)의 형태와 움직임을 유지하도록 설계된 점이 주목할 만하다.
특징 추출 단계에서는 색상 히스토그램, Local Binary Patterns(LBP) 기반 텍스처, 그리고 Optical Flow를 이용한 동작 패턴을 결합한다. 색상 히스토그램은 사원 내부와 외부, 혹은 밤·낮 조명 차이를 구분하는 데 유용하고, LBP는 카바 주변의 독특한 무늬와 구조를 포착한다. Optical Flow는 사위(순례자)의 이동 경로와 속도 패턴을 반영해, 타와프와 사에 같은 의식의 동적 차이를 드러낸다. 이렇게 다중 모달 특징을 통합함으로써 단일 특징에 의존했을 때 발생할 수 있는 오분류 위험을 크게 낮춘다.
분류기 부분에서는 K-Nearest Neighbor(KNN), 인공 신경망(ANN), 서포트 벡터 머신(SVM) 세 가지 모델을 독립적으로 학습시킨 뒤, 교차 검증을 통해 최적의 파라미터를 선정한다. KNN은 특징 공간에서의 거리 기반 직관적 분류를 제공하고, ANN은 비선형 관계를 학습해 복잡한 패턴을 포착한다. SVM은 고차원 특징을 효과적으로 구분하는 마진 기반 접근법으로, 특히 클래스 불균형이 존재할 때 강인한 성능을 보인다. 실험 결과, SVM이 92.3 %의 최고 정확도를 기록했으며, KNN과 ANN도 각각 90.1 %와 89.7 %의 높은 성능을 보였다.
성능 평가는 정확도 외에도 정밀도·재현율·F1-score를 포함했으며, 각 의식 장소별 혼동 행렬을 분석해 가장 혼동이 잦은 ‘사에’와 ‘미라’ 사이의 경계가 조명 변화와 인파 밀도에 민감함을 확인했다. 또한, 시스템은 실시간 처리 요구를 고려해 GPU 가속을 활용했으며, 평균 프레임당 35 ms의 처리 속도를 달성해 현장 적용 가능성을 시사한다.
한계점으로는 데이터셋 규모가 아직 제한적이며, 새로운 의식 장소가 추가될 경우 재학습 비용이 발생한다는 점이다. 또한, 극단적인 날씨(폭우·폭염)나 카메라 손떨림이 심한 경우 전경 분할 정확도가 떨어지는 경향을 보였다. 향후 연구에서는 도메인 적응 기법과 트랜스포머 기반 시퀀스 모델을 도입해 시간적 연속성을 더욱 강화하고, 소량 라벨 데이터만으로도 높은 일반화 성능을 얻는 메타러닝 접근을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기