RGB‑Event 하이퍼그래프 프롬프트 기반 지하철 킬로미터 마커 인식

본 논문은 지하철과 같은 복잡하고 가변적인 환경에서 정확한 위치 추정을 위해 “킬로미터 마커 인식(KMR)”이라는 문제에 초점을 맞추었다. 기존 RGB 카메라 기반 OCR 시스템은 조명 변화, 고속 이동, 악천후 등에서 성능이 급격히 저하되는 한계가 있다. 이를 보완하기 위해 이벤트 카메라를 도입했으며, 이벤트 카메라가 제공하는 높은 다이내믹 레인지(≈120 dB)와 초고속 시간 해상도(µs 수준)를 활용해 저조도·고속 시나리오에서도 견고한 인식을 목표로 한다. ### 1. 데이터셋 구축 – EvMetro5K - **촬영 장비**: RGB 카메라(MER2‑134‑90GC‑P), 근적외선(NIR) 카메라(MER2‑134‑90GM‑P), 이벤트 카메라(Prophesee EVK4) 3종을 동시에 장착한 멀티모달 시스템을 설계. - **수집 환경**: 지하철 운행 중 20시간 이상 촬영, 낮·밤, 다양한 날씨(맑음, 흐림, 비)와 속도(정지, 저속, 고속) 조건을 포괄. - **샘플**: 총 5,599개의 RGB‑Event 쌍을 추출·수동 라벨링, 4,479개는 학습용, 1,120개는 테스트용으로 분할. - **특징**: 기존 STR·OCR 데이터셋 대비 멀티모달, 고속·저조도 상황을 체계적으로 포함, 공개된 최초의 철도 전용 멀티모달 데이터셋. ### 2. 제안 방법 – HGP‑KMR (HyperGraph Prompt for KMR) - **기본 모델**: 사전 학습된 OCR 파운데이션 모델인 PARseq을 베이스라인으로 채택. - **이벤트 전처리**: 이벤트 스트림을 15] 방법으로 그레이스케일 이미지(E)로 복원, RGB 이미지(R)와 동일한 해상도(32×128)로 크롭·리사이즈. - **토큰화**: RGB와 이벤트 이미지를 4×8 패치로 나누어 각각 토큰 시퀀스 T_r, T_e 로 변환, 위치 인코딩 추가. - **백본**: ViT 블록(L개)으로 구성된 이벤트 인코더와 RGB 백본을 별도로 운영. - **하이퍼그래프 프롬프트**: - RGB 토큰과 이벤트 토큰을 결합해 하이퍼그래프를 구성. - 각 하이퍼엣지는 다중 토큰 집합을 의미하며, 평균 풀링 후 선형 변환으로 특징을 집계. - 두 단계의 하이퍼그래프 컨볼루션 레이어를 통해 (1) 토큰 간 고차원 상호작용 강화, (2) RGB와 이벤트 간 교차 모듈레이션을 수행. - 생성된 고차원 멀티모달 특징을 RGB 백본의 각 트랜스포머 레이어에 프롬프트 형태로 삽입, 레이어‑와이즈하게 피드백. - **디코더**: 기존 PARseq 디코더에 멀티모달 특징을 입력, CTC + 교차 엔트로피 손실을 사용해 문자 시퀀스 출력. ### 3. 학습 및 구현 세부사항 - **파라미터 고정**: 대규모 RGB OCR 파운데이션 모델은 frozen 상태로 유지, 하이퍼그래프와 이벤트 인코더만 미세조정. - **손실 함수**: CTC 손실과 교차 엔트로피 손실을 가중합하여 문자 정렬 오류와 전체 시퀀스 정확도를 동시에 최적화. - **하이퍼파라미터**: 패치 크기 4×8, 토큰 차원 768, 하이퍼그래프 레이어 2개, 학습률 1e‑4, 배치 크기 64 등. ### 4. 실험 및 결과 - **벤치마크**: EvMetro5K, WordArt*, IC15* 등에서 비교 실험 수행. - **성능**: EvMetro5K 테스트에서 HGP‑KMR Top‑1 정확도 92.3% (RGB‑only PARseq 81.7%). 저조도·고속 하위 20% 구간에서는 15% 이상 정확도 차이. - **ablation**: 하이퍼그래프 없이 단순 concat fusion을 적용하면 4~6% 정확도 감소, 하이퍼그래프 레이어 수를 1→2로 늘릴 경우 1.8% 향상. - **시각화**: 하이퍼그래프 프롬프트가 이벤트 정보가 사라지는 과포화 구역에서도 RGB 특징을 보정하는 모습을 attention map으로 시각화. ### 5. 논의 및 향후 연구 - **장점**: 이벤트 카메라의 고다이내믹 레인지와 초고속 특성을 하이퍼그래프 기반 고차원 관계 학습에 효과적으로 통합, 기존 RGB‑only OCR의 환경 민감성을 크게 완화. - **제한점**: 현재는 이벤트를 그레이스케일 이미지로 변환하는 전처리 단계에 의존, 원시 이벤트 시퀀스를 직접 모델링하면 더 높은 시간적 정보를 활용할 수 있음. 또한, 대규모 비전‑언어 모델과 결합하면 텍스트 의미적 오류 교정이 가능할 것으로 기대. - **미래 방향**: (1) 이벤트‑to‑RGB 직접 변환 없이 시계열 트랜스포머 기반 이벤트 인코더 개발, (2) 대규모 멀티모달 파운데이션 모델과의 통합, (3) 실시간 인식 및 경량화 모델 설계, (4) 다른 철도 기반 인프라(신호등, 안내판) 인식으로 확장. ### 6. 결론 본 연구는 RGB와 이벤트 카메라를 결합한 하이퍼그래프 프롬프트 기반 KMR 시스템을 제안하고, 대규모 멀티모달 데이터셋 EvMetro5K를 공개함으로써 철도 분야 멀티모달 비전 연구에 새로운 기준을 제시한다. 실험 결과는 제안 방법이 저조도·고속 등 극한 환경에서도 기존 RGB‑only 모델 대비 현저히 높은 인식 정확도를 달성함을 입증한다.

RGB‑Event 하이퍼그래프 프롬프트 기반 지하철 킬로미터 마커 인식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기