포인트 기반 약지도 회전 객체 검출을 위한 동적 라벨 할당과 사전 가이드 마스크 손실
초록
본 논문은 점(annotation)만을 이용해 회전 객체 검출을 학습하는 약지도 방식의 한계를 극복하고자, 훈련 단계별로 객체 크기를 추정해 다중 FPN 레벨에 라벨을 동적으로 할당하는 Progressive Label Assignment(PLA)와, 장면 밀도에 따라 Watershed와 SAM 마스크를 선택적으로 결합하는 Prior‑Guided Dynamic Mask Loss(PGDM‑Loss)를 제안한다. 이를 통해 기존 Point2RBox‑v2 대비 정확도와 스케일 활용 효율을 크게 향상시켰으며, DOTA·DIOR·STAR·RSAR 등 6개 데이터셋에서 경쟁력 있는 성능을 기록한다.
상세 분석
Point2RBox‑v3는 약지도 기반 회전 객체 검출(Oriented Object Detection, OOD)에서 가장 큰 두 문제, 즉 “pseudo‑label 활용 효율 저하”와 “pseudo‑label 품질 저하”를 동시에 해결한다. 첫 번째 핵심 기법인 Progressive Label Assignment(PLA)는 훈련 초기에 Watershed 알고리즘으로부터 얻은 고정된 마스크 영역을 이용해 대략적인 객체 크기를 추정하고, 이를 기반으로 기존 FPN(Feture Pyramid Network)의 각 레벨에 점 라벨을 할당한다. 훈련이 진행됨에 따라 네트워크가 예측한 박스와 점 라벨을 매칭시켜 동적으로 크기 정보를 업데이트한다. 구체적으로, 각 FPN 레벨에서 점에 가장 가까운 앵커에 대응되는 예측 박스를 후보 집합 Cg 로 정의하고, 후보 중 클래스 신뢰도가 가장 높은 박스를 pseudo‑label PLg 로 선택한다(식 4). 이 과정은 라벨 할당에 스케일 정보를 반영함으로써, 기존처럼 모든 점을 단일 레벨에만 할당하던 방식을 탈피하고, 다중 레벨에서 적절한 스케일의 특징을 활용하도록 만든다.
두 번째 핵심인 Prior‑Guided Dynamic Mask Loss(PGDM‑Loss)는 Watershed와 Segment‑Anything Model(SAM) 두 마스크 생성 방법의 장단점을 보완한다. Sparse(희소) 장면에서는 인스턴스 수가 사전 정의된 임계값 Nthr 이하일 경우 MobileSAM을 호출해 정교한 마스크를 얻고, Dense(밀집) 장면에서는 기존 Watershed 손실을 그대로 사용한다. SAM이 생성한 마스크 집합 Mj 에 대해, 중심 정렬, 색상 일관성, 직사각형도, 원형도, 종횡비 신뢰도 등 5가지 메트릭을 사전 가중치 wk,cj 와 결합해 최적 마스크 mj* 를 선택한다(식 5). 선택된 마스크는 회전 정렬 후 가우시안 Wasserstein Distance 손실(LGWD)로 회귀 목표(wt, ht)를 계산한다(식 6‑8). 이렇게 두 흐름을 상황에 맞게 전환함으로써, 희소 장면에서의 과소‑분할과 밀집 장면에서의 과다‑분할을 동시에 억제한다.
실험 결과, PLA와 PGDM‑Loss를 결합한 Point2RBox‑v3는 DOTA‑v1.0에서 66.09% mAP, DOTA‑v2.0에서 41.28% mAP 등 기존 Point2RBox‑v2(59.6% mAP) 대비 평균 6~7%p 상승을 기록했다. 특히 객체 크기 변동이 큰 항공 영상이나, 객체가 드문드문 배치된 STAR·RSAR 데이터셋에서 두드러진 성능 향상을 보였다. 또한, SAM은 훈련 단계에서만 사용되고 추론 시에는 전혀 개입하지 않으므로, 최종 모델의 추론 속도는 기존 FPN 기반 구조와 동일하게 유지된다.
종합하면, Point2RBox‑v3는 (1) 동적 pseudo‑label 생성·업데이트 메커니즘을 통해 FPN의 다중 스케일 특성을 약지도 학습에 효과적으로 도입하고, (2) 장면 밀도에 따라 최적의 마스크 생성 방법을 자동 선택함으로써 pseudo‑label 품질을 크게 개선한다는 두 축을 통해 약지도 회전 객체 검출 분야의 성능 한계를 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기