지하 인프라 검사용 경량 비전 언어 모델 통합 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 지하 배관·관거 검사 로봇에 적용 가능한 두 단계 파이프라인을 제안한다. 첫 단계에서는 0.64 M 파라미터만을 갖는 경량 세그멘테이션 모델 RAPID‑SCAN으로 결함을 실시간 검출하고, 두 번째 단계에서는 4‑bit 양자화된 Phi‑3.5 VLM을 QLoRA와 LoRA 어댑터로 도메인 특화 fine‑tuning하여 결함 마스크와 이미지 정보를 자연어 요약으로 변환한다. 후처리 양자화와 TensorRT 최적화를 통해 Jetson Orin에서 3 초 이하의 지연시간과 85 % GPU 메모리 사용률을 달성했으며, 요약 품질은 ROUGE‑L 0.78을 기록한다.

상세 분석

본 연구는 지하 인프라 검사라는 특수 도메인에 초점을 맞추어, 제한된 연산·메모리 환경에서도 고품질의 시각‑언어 결합 서비스를 제공하는 방법론을 체계적으로 제시한다. 첫 번째 핵심은 RAPID‑SCAN 모델이다. Dynamic Feature Pyramid Network와 Squeeze‑Excitation 모듈을 결합해 0.64 M 파라미터(전체 모델 대비 97 % 감소)로도 0.834 F1‑score와 0.638 mIoU를 달성했으며, 4.52 GFLOPS 이하의 연산량으로 실시간 처리에 적합함을 보였다. 두 번째 핵심은 Phi‑3.5 VLM의 경량화 및 도메인 적응이다. 기본 가중치를 NF4 4‑bit 양자화하고, LoRA 어댑터(r=16, α=32)를 attention 레이어에 삽입해 전체 파라미터를 98.2 % 축소하면서도 67 M 학습 파라미터만으로 충분한 표현력을 확보했다. QLoRA 기반 손실 함수는 자연어 생성 교차 엔트로피와 파라미터·시간·메모리 정규화를 동시에 최적화하도록 설계되었다. 양자화 후 INT8 + FP16 혼합 정밀도 TensorRT 엔진을 생성해 Jetson Orin에서 3 초 미만의 요약 생성 지연과 85 % GPU 메모리 점유율을 유지했으며, 온도 75 °C 이하로 안정적인 운영을 확인했다. 데이터 측면에서는 5,051장의 RGB 이미지와 8가지 결함 클래스를 포함한 Sewer‑Culvert Defect (SCD) 데이터셋을 구축하고, 자동 캡션 생성 후 전문가 검증을 거쳐 4가지 핵심 요소(Condition, Location, Severity, Implications)를 포함한 고품질 라벨을 확보했다. 실험 결과, 경량화된 파이프라인이 기존 대형 VLM 대비 3배 빠른 추론 속도를 보이면서도 ROUGE‑L 0.78, BLEU 0.71 등 요약 품질에서 큰 손실이 없음을 입증했다. 이러한 설계는 로봇 현장 적용성을 높이고, 향후 다양한 인프라 분야로 확장 가능한 범용 프레임워크로서의 가능성을 제시한다.

지하 인프라 검사용 경량 비전 언어 모델 통합 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기