데이터 효율적인 토목 객체 탐지를 위한 DINO‑YOLO 하이브리드 모델

초록

본 논문은 제한된 라벨 데이터만 존재하는 토목·건설 현장 적용을 위해, 최신 객체 탐지기 YOLOv12와 자기지도 학습 비전 트랜스포머 DINOv3를 결합한 DINO‑YOLO를 제안한다. DINOv3 특징을 입력 전처리 단계(P0)와 중간 백본 강화 단계(P3)에 삽입함으로써, 648장의 터널 균열, 1천 장의 PPE, 7천 장의 KITTI 데이터셋에서 각각 12.4 %, 13.7 %, 88.6 %의 mAP 향상을 달성하였다. 모델 규모와 DINO 변형에 대한 체계적 Ablation을 통해 중형 모델이 Dual P0‑P3 통합 시 55.77 % mAP@0.5, 소형 모델은 Triple 통합 시 53.63 %를 기록하였다. 실시간 추론 속도는 30–47 FPS(기존 8–16 ms 대비 21–33 ms 증가)로 현장 적용에 충분히 빠르다.

상세 요약

DINO‑YOLO는 두 가지 핵심 아이디어를 결합한다. 첫째, DINOv3와 같은 자기지도 학습 기반 비전 트랜스포머는 대규모 라벨이 없는 이미지에서 풍부한 시각적 표현을 학습한다. 이러한 사전학습된 특징은 도메인 특화 데이터가 부족한 상황에서도 강인한 일반화 능력을 제공한다. 둘째, YOLOv12는 경량화된 구조와 고속 추론을 목표로 설계된 최신 객체 탐지기로, 실시간 현장 모니터링에 최적화되어 있다. 논문에서는 DINOv3의 특징을 두 지점에 삽입한다. P0는 입력 이미지가 백본에 들어가기 전, 즉 초기 피처 맵을 보강하는 단계이며, P3는 백본 중간 레이어에서 고수준 의미 정보를 강화한다. 이 두 지점을 동시에 활용(Dual P0‑P3)하면, 저해상도 혹은 잡음이 많은 토목 이미지에서도 작은 결함을 효과적으로 포착한다는 것이 실험을 통해 입증되었다.

Ablation 실험에서는 다섯 가지 YOLO 규모(소‑대‑초대)와 아홉 가지 DINOv3 변형(크기·깊이·프리트레인 데이터 차이)을 교차 적용하였다. 결과적으로 중형(Medium) 모델이 Dual P0‑P3 통합 시 가장 높은 mAP@0.5(55.77 %)를 기록했으며, 이는 모델 파라미터와 연산량이 현장 장비(NVIDIA RTX 5090)의 메모리·전력 제한 내에서 최적의 성능‑효율 균형을 이루기 때문이다. 반면 소형 모델은 특징 손실이 크게 나타나 Triple 통합(추가적인 P1·P2 삽입)으로 보완해야만 53.63 % 수준의 성능을 달성할 수 있었다. 이는 작은 백본이 자체적으로 충분한 표현력을 갖추지 못할 때, 더 많은 단계에서 트랜스포머 특징을 주입해야 함을 시사한다.

성능 향상은 특히 KITTI와 같은 일반 객체 탐지 데이터에서 88.6 %라는 급격한 상승을 보였는데, 이는 DINOv3가 사전학습 단계에서 다양한 도메인(자연 이미지, 도시 풍경)을 포괄했기 때문에 전이 학습 효과가 크게 작용했음을 의미한다. 토목 전용 데이터(터널 균열, PPE)에서도 12~14 % 수준의 개선이 관측되었으며, 이는 라벨이 적은 상황에서도 자기지도 학습이 유의미한 특징을 제공한다는 실증적 증거다.

추론 속도 측면에서는 DINO‑YOLO가 기본 YOLOv12 대비 2‑4배(21–33 ms vs 8–16 ms)의 연산 오버헤드를 발생시키지만, RTX 5090에서 30–47 FPS를 유지한다는 점에서 실시간 현장 적용이 가능하다. 메모리 사용량은 트랜스포머 블록 추가에 따라 약 1.5 GB 증가했으며, 이는 최신 GPU 사양에서는 충분히 감당 가능한 수준이다.

한계점으로는 (1) RTX 5090과 같은 고성능 GPU가 전제된다는 점, (2) DINOv3 사전학습에 사용된 대규모 데이터셋이 공개되지 않아 재현성이 다소 제한될 수 있다는 점, (3) 매우 작은 객체(예: 미세 균열)에서는 여전히 탐지율이 낮아 추가적인 멀티스케일 피처 융합이 필요할 수 있다는 점을 들 수 있다. 향후 연구에서는 경량 트랜스포머 설계, 도메인 특화 사전학습(예: 건설 현장 이미지) 및 하드웨어 가속(Edge TPU 등)과의 연계가 기대된다.

초록

상세 요약

📜 논문 원문 (영문)