통합 비전‑언어 모델로 구현한 차세대 차량 번호판 인식 시스템
초록
본 논문은 기존 다단계 파이프라인을 대체하는 단일 패스 VLM 기반 ALPR 프레임워크인 Neural Sentinel을 제안한다. PaliGemma 3B 모델을 LoRA로 경량 파인튜닝하고, 인간‑인‑루프 지속학습을 통해 오류 교정을 실시간으로 반영한다. 실험 결과 92.3%의 번호판 인식 정확도와 152 ms 평균 지연시간, ECE 0.048의 높은 신뢰도 보정을 달성했으며, 색상·안전벨트·승차인원 등 부수 작업에서도 제로샷 성능을 보였다.
상세 분석
Neural Sentinel은 “VLM‑First”라는 설계 철학을 채택한다. 기존 ALPR 시스템은 차량 검출 → 번호판 영역 추출 → 문자 분할 → OCR 순으로 4~5개의 독립 모델을 연쇄적으로 실행한다. 각 단계에서 발생하는 오류는 다음 단계에 누적돼 전체 성능을 저하시킬 뿐 아니라, 연산 비용과 메모리 사용량을 크게 늘린다. 본 연구는 이러한 구조적 비효율성을 해소하기 위해, 이미지와 자연어 질문을 동시에 입력받아 텍스트, 상태, 차량 속성 등을 한 번에 출력하는 Vision‑Language Model을 활용한다.
핵심 기술은 다음과 같다. 첫째, PaliGemma 3B를 선택한 이유는 텍스트 인식 능력과 경량성이다. SigLIP 기반 ViT‑L/14 비전 인코더가 224×224 입력을 576개의 토큰으로 변환하고, Gemma 디코더가 이를 언어 토큰과 결합해 자유형 텍스트를 생성한다. 둘째, 파라미터 효율적인 적응을 위해 LoRA를 적용하였다. 모든 어텐션 프로젝션과 Feed‑Forward 레이어에 rank = 16, α = 32의 저차원 매트릭스를 삽입해 전체 파라미터의 0.27%만 학습한다. 이를 통해 도메인 특화된 번호판 문자 패턴을 빠르게 습득하면서도 사전 학습된 일반 시각‑언어 지식은 보존한다.
세 번째로, 인간‑인‑루프 지속학습(HITL‑CL) 메커니즘을 도입했다. 운영 현장에서 운영자가 낮은 신뢰도 혹은 오류를 확인하면 정답을 입력하고, 시스템은 이를 경험 재생(Experience Replay) 버퍼에 저장한다. 재학습 시 원본 학습 데이터와 교정 샘플을 70:30 비율로 섞어 미니배치를 구성함으로써 catastrophic forgetting을 방지한다. 이 과정은 주기적 배치 학습이 아니라, 필요 시 트리거되는 인크리멘털 업데이트 형태로 설계돼 실시간 서비스에 적합하다.
성능 평가에서는 실제 톨게이트 영상 12,000장(다양한 조명·각도·주/야)을 사용했다. 번호판 인식 정확도는 EasyOCR(78.2%)와 PaddleOCR(82.4%)를 각각 14.1%·9.9% 앞섰으며, 평균 지연시간은 152 ms로 기존 파이프라인(≈260 ms) 대비 43% 감소했다. 또한, 모델은 출력 텍스트에 대한 확률적 신뢰도를 제공하고, Expected Calibration Error가 0.048로 잘 보정된 것으로 확인되었다. 제로샷 테스트에서는 차량 색상(89%), 안전벨트 착용 여부(82%), 승차인원(78%)을 별도 학습 없이도 높은 정확도로 판별했다. 이는 VLM이 사전 학습 단계에서 습득한 세계 지식과 풍부한 시맨틱 표현 덕분임을 시사한다.
마지막으로, 제한점도 논의한다. 현재 3B 모델은 GPU 메모리 12 GB 기준에서만 실시간 추론이 가능하며, 초고해상도 영상이나 극단적인 날씨 조건에서는 인식률이 약간 떨어진다. 또한, 경험 재생 버퍼 크기가 제한적이므로 장기적인 데이터 드리프트에 대비한 메모리 관리 전략이 필요하다. 향후 연구에서는 더 큰 모델(PaliGemma 7B)과 멀티모달 압축 기법을 결합해 정확도‑지연시간 트레이드오프를 최적화하고, 온라인 라벨링 인터페이스를 통해 사용자 피드백을 자동화하는 방안을 모색한다.
댓글 및 학술 토론
Loading comments...
의견 남기기