지하 인프라 검사용 경량 비전 언어 모델 통합 시스템
초록
본 논문은 지하 배관·관거 검사 로봇에 적용 가능한 두 단계 파이프라인을 제안한다. 첫 단계에서는 0.64 M 파라미터만을 갖는 경량 세그멘테이션 모델 RAPID‑SCAN으로 결함을 실시간 검출하고, 두 번째 단계에서는 4‑bit 양자화된 Phi‑3.5 VLM을 QLoRA와 LoRA 어댑터로 도메인 특화 fine‑tuning하여 결함 마스크와 이미지 정보를 자연어 요약으로 변환한다. 후처리 양자화와 TensorRT 최적화를 통해 Jetson Orin에서 3 초 이하의 지연시간과 85 % GPU 메모리 사용률을 달성했으며, 요약 품질은 ROUGE‑L 0.78을 기록한다.
상세 분석
본 연구는 지하 인프라 검사라는 특수 도메인에 초점을 맞추어, 제한된 연산·메모리 환경에서도 고품질의 시각‑언어 결합 서비스를 제공하는 방법론을 체계적으로 제시한다. 첫 번째 핵심은 RAPID‑SCAN 모델이다. Dynamic Feature Pyramid Network와 Squeeze‑Excitation 모듈을 결합해 0.64 M 파라미터(전체 모델 대비 97 % 감소)로도 0.834 F1‑score와 0.638 mIoU를 달성했으며, 4.52 GFLOPS 이하의 연산량으로 실시간 처리에 적합함을 보였다. 두 번째 핵심은 Phi‑3.5 VLM의 경량화 및 도메인 적응이다. 기본 가중치를 NF4 4‑bit 양자화하고, LoRA 어댑터(r=16, α=32)를 attention 레이어에 삽입해 전체 파라미터를 98.2 % 축소하면서도 67 M 학습 파라미터만으로 충분한 표현력을 확보했다. QLoRA 기반 손실 함수는 자연어 생성 교차 엔트로피와 파라미터·시간·메모리 정규화를 동시에 최적화하도록 설계되었다. 양자화 후 INT8 + FP16 혼합 정밀도 TensorRT 엔진을 생성해 Jetson Orin에서 3 초 미만의 요약 생성 지연과 85 % GPU 메모리 점유율을 유지했으며, 온도 75 °C 이하로 안정적인 운영을 확인했다. 데이터 측면에서는 5,051장의 RGB 이미지와 8가지 결함 클래스를 포함한 Sewer‑Culvert Defect (SCD) 데이터셋을 구축하고, 자동 캡션 생성 후 전문가 검증을 거쳐 4가지 핵심 요소(Condition, Location, Severity, Implications)를 포함한 고품질 라벨을 확보했다. 실험 결과, 경량화된 파이프라인이 기존 대형 VLM 대비 3배 빠른 추론 속도를 보이면서도 ROUGE‑L 0.78, BLEU 0.71 등 요약 품질에서 큰 손실이 없음을 입증했다. 이러한 설계는 로봇 현장 적용성을 높이고, 향후 다양한 인프라 분야로 확장 가능한 범용 프레임워크로서의 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기