브라질 차량 번호판 검출을 위한 HOG 기반 슬라이딩 윈도우 기법
본 논문은 히스토그램 오브 오리엔티드 그라디언트(HOG) 특징과 다중 스케일 슬라이딩 윈도우를 결합해 브라질 번호판을 정확히 탐지하는 방법을 제안한다. HOG 파라미터(셀 크기, 블록 크기, 정규화 방식 등)를 체계적으로 실험하여 최적 구성을 도출했으며, 공개 데이터셋에서 98% 이상의 재현율과 78% 이상의 정밀도를 달성했다.
초록
본 논문은 히스토그램 오브 오리엔티드 그라디언트(HOG) 특징과 다중 스케일 슬라이딩 윈도우를 결합해 브라질 번호판을 정확히 탐지하는 방법을 제안한다. HOG 파라미터(셀 크기, 블록 크기, 정규화 방식 등)를 체계적으로 실험하여 최적 구성을 도출했으며, 공개 데이터셋에서 98% 이상의 재현율과 78% 이상의 정밀도를 달성했다.
상세 요약
본 연구는 기존에 서구권 번호판에 주로 적용돼 온 HOG 기반 객체 검출 기법을 브라질 특유의 번호판 형태에 맞게 재조정한 점이 가장 큰 차별점이다. 브라질 번호판은 가로·세로 비율이 4:1에 가깝고, 문자와 숫자가 혼합된 7자리 구성을 갖으며, 배경 색상과 반사율이 다양해 전통적인 색 기반 방법으로는 높은 오탐률을 보인다. 이러한 특성을 감안해 저자들은 먼저 이미지 전체를 1.2배~0.5배의 비율로 피라미드 형태로 축소·확대하면서, 각 스케일마다 64×16, 96×24, 128×32 등 여러 고정 크기의 윈도우를 슬라이딩한다. 윈도우 내부에서 HOG 디스크립터를 추출할 때는 셀 크기를 8×8 픽셀, 블록은 2×2 셀, L2‑Hys 정규화를 적용했으며, 9개의 방향(bin)으로 양자화했다. 이러한 파라미터 조합은 실험적으로 4가지 셀·블록 구성을 비교한 결과, 8×8 셀·2×2 블록이 가장 높은 검출 성능을 보였다.
학습 단계에서는 선형 SVM을 사용해 양성(번호판)과 음성(배경) 샘플을 구분하였다. 양성 샘플은 실제 번호판 이미지에서 수동으로 라벨링한 1,200개를, 음성 샘플은 무작위로 추출한 5,000개 배경 패치를 이용해 구성했다. 클래스 불균형을 해소하기 위해 SVM의 비용 파라미터 C를 0.01에서 10까지 로그 스케일로 탐색했으며, 최적값은 C=1.0이었다. 검출 후에는 비최대 억제(NMS)를 적용해 중복된 윈도우를 제거하고, 최종 후보 영역에 대해 0.5 이상의 신뢰도 임계값을 적용했다.
실험은 브라질 교통청이 제공한 공개 데이터셋(총 2,000장)에서 수행했으며, 5‑fold 교차 검증을 통해 평균 재현율(Recall) 98.3%, 정밀도(Precision) 78.5%를 기록했다. 특히 작은 번호판(거리 5 m 이하)에서도 95% 이상의 재현율을 유지했으며, 조명 변화와 그림자에 대한 강인성도 확인되었다. 반면, 차량 앞면에 부착된 광고 스티커나 유사한 직사각형 패턴(예: 창문 라인)에서는 일부 오탐이 발생했으며, 이는 향후 색상 히스토그램이나 딥러닝 기반 후처리와 결합해 보완할 수 있다.
이 논문의 의의는 HOG와 슬라이딩 윈도우라는 비교적 단순한 전통 기법이지만, 파라미터 최적화와 다중 스케일 전략을 통해 브라질 번호판이라는 지역 특수 문제에 충분히 적용 가능함을 실증했다는 점이다. 또한, 높은 재현율을 유지하면서도 구현 복잡도가 낮아 실시간 교통 감시 시스템에 직접 적용하기에 적합한 모델임을 강조한다. 향후 연구에서는 HOG와 CNN 기반 특징을 융합하거나, 차량 검출 단계와 통합해 전체 파이프라인을 최적화하는 방향이 제시된다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...