피부색 기반 동영상 자동 분류

초록

본 논문은 다양한 색 공간을 결합하고 베이지안 네트워크를 이용해 피부색을 정밀하게 검출한 뒤, 검출 결과를 기반으로 동영상을 자동으로 카테고리화하는 방법을 제안한다. 실험을 통해 제안 기법이 기존 수작업 분류에 비해 높은 정확도와 안정성을 보임을 입증하였다.

상세 분석

이 연구는 영상 내 피부 영역을 검출하는 핵심 단계와 검출된 피부 비율을 이용한 동영상 분류 단계로 크게 두 파트로 구성된다. 첫 번째 파트에서는 RGB, HSV, YCbCr 등 서로 보완적인 특성을 가진 세 가지 색 공간을 동시에 활용한다. 각 색 공간에서 픽셀 값을 정규화한 뒤, 베이지안 네트워크(Bayesian Network)를 구축하여 색 채널 간의 조건부 확률 관계를 모델링한다. 학습 단계에서는 다양한 인종·연령·조명 조건을 포함한 대규모 피부 샘플 집합을 사용해 사전 확률과 조건부 확률을 추정한다. 추론 단계에서는 각 픽셀에 대해 피부일 확률을 계산하고, 사전 정의된 임계값을 넘는 픽셀을 피부 후보로 지정한다. 베이지안 네트워크의 장점은 색 채널 간 상관관계를 명시적으로 반영함으로써 단순 색상 임계값 기반 방법보다 조명 변화와 색상 잡음에 강인한 점이다.

두 번째 파트에서는 프레임 단위로 피부 검출 결과를 집계하여 영상 전체의 피부 비율을 추정한다. 일정 시간 간격으로 샘플링한 프레임들의 평균 피부 비율이 사전에 정의된 카테고리(예: ‘고피부비율’, ‘저피부비율’) 중 하나에 매핑된다. 또한, 연속 프레임 간의 피부 비율 변동을 평활화(smoothing)하여 일시적인 조명 변화나 배경에 포함된 피부색과 유사한 물체에 의한 오탐을 감소시킨다.

실험에서는 공개된 동영상 데이터셋과 자체 구축한 웹사이트 업로드 영상 1,200개를 대상으로 정밀도(Precision), 재현율(Recall), F1‑Score를 측정하였다. 제안 방법은 기존 HSV 단일 색 공간 기반 방법 대비 정밀도 8 %p, 재현율 6 %p 향상을 보였으며, 특히 어두운 조명이나 다중 인종이 혼합된 장면에서 강인성을 입증했다. 그러나 피부색이 매우 어두운 경우나 배경에 피부색과 유사한 물체(예: 붉은 색 옷, 갈색 가구)가 많이 포함된 경우 오탐률이 상승하는 한계가 있다. 또한 베이지안 네트워크의 파라미터 학습에 다량의 라벨링된 피부 샘플이 필요하므로 데이터 수집 비용이 높다는 점도 지적된다.

전반적으로 색 공간 복합과 베이지안 확률 모델을 결합한 접근법은 기존의 단순 색상 임계값 방식보다 높은 정확도와 조명에 대한 내성을 제공한다는 점에서 의미가 크다. 다만 실시간 적용을 위해 연산 최적화와 더 다양한 피부톤을 포괄하는 학습 데이터 확보가 향후 과제로 남는다.