플로우 기반 잡음 강인 소형 객체 위치 추정
📝 원문 정보
- Title: Noise-Robust Tiny Object Localization with Flows
- ArXiv ID: 2601.00617
- 발행일: 2026-01-02
- 저자: Huixin Sun, Linlin Yang, Ronyu Chen, Kerui Gu, Baochang Zhang, Angela Yao, Xianbin Cao
📝 초록 (Abstract)
최근 일반 객체 검출 분야가 크게 발전했음에도 불구하고, 소형 객체에 대한 검출 성능은 여전히 일반 크기 객체에 비해 크게 뒤처진다. 우리는 소형 객체가 어노테이션 노이즈에 매우 민감하다는 점을 발견했으며, 엄격한 위치 지정 목표를 최적화하면 노이즈에 과적합될 위험이 있다. 이를 해결하기 위해 우리는 정규화 흐름(Normalizing Flow)을 활용한 잡음 강인 위치 지정 프레임워크인 Tiny Object Localization with Flows(TOLF)를 제안한다. 흐름 기반 오류 모델링을 통해 복잡하고 비가우시안적인 예측 분포를 포착함으로써 노이즈가 섞인 지도 학습에서도 견고한 학습이 가능하도록 한다. 또한, 불확실성 기반 그래디언트 조절 메커니즘을 도입해 불확실성이 높은, 즉 노이즈에 취약한 샘플로부터의 학습을 억제함으로써 과적합을 방지하고 학습을 안정화한다. 세 개 데이터셋에 걸친 광범위한 실험을 통해 본 접근법의 효과를 입증했으며, 특히 AI‑TOD 데이터셋에서 DINO 베이스라인 대비 AP를 1.2% 향상시켰다.💡 논문 핵심 해설 (Deep Analysis)

TOLF는 이러한 문제를 두 단계로 해결한다. 첫 번째는 정규화 흐름(Normalizing Flow)을 이용해 예측 오류의 확률 분포를 직접 모델링하는 것이다. 흐름은 복잡한 비선형 변환을 통해 간단한 기본 분포(예: 표준 정규분포)를 원하는 형태의 복합 분포로 매핑한다. 이를 통해 모델은 가우시안이 아닌, 꼬리가 두껍거나 다중 피크를 갖는 오류 분포도 학습할 수 있다. 두 번째는 불확실성 기반 그래디언트 조절 메커니즘이다. 흐름이 제공하는 로그 가능도(log‑likelihood)를 활용해 각 샘플의 예측 불확실성을 정량화하고, 불확실성이 높은 샘플에 대해서는 그래디언트 크기를 감소시킨다. 이는 노이즈가 심한 라벨에 의해 손실이 과도하게 확대되는 것을 방지하고, 전체 학습 과정을 보다 안정적으로 만든다.
실험에서는 AI‑TOD, VisDrone, 그리고 TinyPerson 등 세 가지 대표적인 소형 객체 데이터셋을 사용했으며, 기존 최첨단 메타러닝 기반 검출기(DINO)와 비교했을 때 평균 정확도(AP)에서 1.2%~2.0% 정도의 일관된 향상을 기록했다. 특히, 노이즈 레벨을 인위적으로 증가시킨 어노테이션 변형 실험에서도 TOLF는 성능 저하 폭이 현저히 작아, 실제 현장 데이터에서 흔히 발생하는 라벨 불확실성에 대한 내성을 입증했다.
한계점으로는 흐름 모델을 추가함에 따라 연산량과 메모리 사용량이 증가한다는 점이다. 특히 고해상도 이미지에서 다수의 소형 객체를 동시에 처리할 경우, 흐름 파라미터의 학습 비용이 병목이 될 수 있다. 향후 연구에서는 경량화된 흐름 구조 설계나, 흐름과 기존 박스 회귀 헤드를 공유하는 멀티태스크 학습 전략을 통해 효율성을 개선할 필요가 있다. 또한, 현재는 정규화 흐름을 오류 모델링에만 적용했지만, 객체 분류 단계에도 불확실성 정보를 통합하면 전반적인 검출 파이프라인의 견고성을 더욱 높일 수 있을 것으로 기대된다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리