저품질 이미지에서 열린 어휘 객체 탐지 성능 평가

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 기존 열린 어휘 객체 탐지 모델 6종을 실제 환경에서 흔히 발생하는 저품질 이미지(압축, 감마, 노이즈, 블러) 조건에 대해 평가한다. COCO 2017 검증 세트를 기반으로 4가지 저품질 변형을 5단계로 적용해 10만 장의 합성 데이터셋을 구축했으며, mAP(0.5~0.9 IoU) 지표로 성능을 측정하였다. 결과는 저수준 변형에서는 큰 성능 저하가 없었지만, 고수준 변형에서는 모든 모델이 급격히 성능이 떨어졌다. 특히 OWLv2 계열이 가장 안정적이었으며, OWL‑ViT, GroundingDINO, Detic은 심각한 감소를 보였다. 데이터와 코드가 공개되어 향후 연구에 활용될 수 있다.

상세 분석

이 논문은 열린 어휘 객체 탐지(Open‑Vocabulary Object Detection, OVD) 모델이 실제 적용될 때 마주하게 되는 저품질 이미지 문제를 체계적으로 조사한다. 먼저 저품질 이미지 데이터셋을 자체 제작했는데, 이는 COCO 2017 검증 세트의 5천 장을 각각 4가지 변형(손실 압축, 감마 보정, 가우시안 노이즈, 평균 블러)과 5단계 강도로 처리해 총 100 000장의 이미지로 확장한 것이다. 각 변형은 실제 촬영 환경에서 발생할 수 있는 압축 아티팩트, 과·과소 노출, 센서 노이즈, 움직임 블러 등을 모사한다.

평가에 사용된 모델은 구글의 OWL‑ViT(B/16, B/32)와 OWLv2(B/16, L/14), 그리고 오픈소스 기반 GroundingDINO(Tiny)와 Detic이다. 모든 모델은 텍스트 프롬프트(80개 COCO 카테고리)와 결합해 이미지당 다중 라벨을 예측하고, 0.1의 confidence threshold 후 mAP를 계산한다.

실험 결과는 두 가지 주요 패턴을 보여준다. 첫째, 저수준(압축 품질 80, 감마 0.8~~1.2, 노이즈 표준편차 20, 블러 커널 6)에서는 대부분의 모델이 원본 이미지와 비슷한 mAP를 유지했으며, 특히 OWLv2‑L/14가 35~~36 % 수준으로 가장 높은 절대값을 기록했다. 둘째, 고수준(압축 품질 0, 감마 2.0, 노이즈 표준편차 50, 블러 커널 12)에서는 모든 모델이 급격히 성능이 떨어졌는데, OWL‑ViT와 Detic은 mAP가 15 % 이하로 하락한 반면, OWLv2‑L/14는 여전히 34 % 수준을 유지하며 상대적 강인함을 입증했다.

세부적으로 보면, 압축 강도가 증가할수록 OWLv2 계열은 31 %에서 36 % 사이의 변동을 보였고, OWL‑ViT는 20 % 이하로 급락했다. 감마 변형에서는 전체적으로 성능 저하가 가장 완만했으며, 특히 OWLv2‑B/16이 33~37 % 범위에서 안정적인 결과를 냈다. 노이즈와 블러에서는 모든 모델이 선형적으로 성능이 감소했으며, 특히 블러 커널이 10 이상일 때 OWL‑ViT와 Detic은 10 % 미만으로 떨어졌다.

이러한 결과는 모델 아키텍처와 사전 학습 전략이 저품질 이미지에 대한 내성을 결정한다는 점을 시사한다. OWLv2는 대규모 이미지‑텍스트 사전 학습과 스케일링 전략을 통해 다양한 변형에 대한 일반화 능력을 확보한 반면, OWL‑ViT는 Vision Transformer 기반이지만 텍스트‑이미지 정렬 방식이 압축 아티팩트와 노이즈에 취약함을 보여준다. GroundingDINO는 중간 정도의 강인성을 보였으나, 고수준 블러에서는 급격히 약화된다. Detic은 이미지‑레벨 라벨링에 의존하는 구조라 저품질 상황에서 텍스트‑이미지 매칭이 무너지기 쉬운 것으로 판단된다.

논문의 한계점으로는 합성 저품질 이미지가 실제 촬영 환경을 완전히 대변하지 못한다는 점, 그리고 모델 파인튜닝 없이 바로 평가했기 때문에 최적화 가능성을 탐색하지 못했다는 점을 들 수 있다. 향후 연구는 저품질 이미지에 특화된 데이터 증강, 손실 함수 설계, 그리고 멀티모달 정규화 기법을 도입해 성능 회복을 시도할 필요가 있다. 또한, 저품질 상황에서도 실시간 추론이 가능한 경량 모델 설계와, 인간 인지와 유사한 품질 인식 메커니즘을 통합하는 방향도 유망하다.

저품질 이미지에서 열린 어휘 객체 탐지 성능 평가

초록

상세 분석

댓글 및 학술 토론

의견 남기기