불확실성을 고려한 이미지 분류·세그멘테이션 평가 방법

본 논문은 인간 전문가가 제공하는 라벨의 불확실성을 정량화하여, 분류와 세그멘테이션을 동시에 평가할 수 있는 새로운 메트릭을 제안한다. 전문가의 확신 정도를 가중치로 적용한 혼동 행렬과, 경계 검출 정확도를 측정하는 두 가지 거리 기반 지표를 통해, 기존의 단일 측정 방식보다 더 신뢰성 있는 성능 비교가 가능함을 보여준다.

저자: Arnaud Martin (E3I2), Hicham Laanaya (E3I2), Andreas Arnold-Bos (E3I2)

불확실성을 고려한 이미지 분류·세그멘테이션 평가 방법
본 논문은 이미지 분류와 세그멘테이션 알고리즘을 평가할 때, 인간 전문가가 제공하는 라벨이 불확실하고 주관적일 수 있다는 점을 고려한 새로운 평가 프레임워크를 제시한다. 서론에서는 기존 연구들이 주로 단일 측정 지표(예: 혼동 행렬, IoU)를 사용해 알고리즘 성능을 비교했으며, 이는 라벨이 완전하고 정확하다는 전제에 기반한다는 한계를 지적한다. 특히 해저 음향 이미지와 같은 복잡한 환경에서는 전문가마다 해석이 다르고, 라벨에 대한 확신 정도가 크게 차이 나기 때문에 기존 방법으로는 공정한 비교가 어렵다. 2절에서는 분류 평가 방법을 상세히 설명한다. 먼저, 전문가가 각 픽셀(또는 n×n 타일)에 대해 ‘sure’, ‘moderately sure’, ‘not sure’와 같은 확신 등급을 부여하고, 각각 2/3, 1/2, 1/3의 가중치를 할당한다. 이 가중치를 혼동 행렬에 직접 적용해 비정규화된 행렬을 만든 뒤, 모든 이미지와 모든 전문가에 대해 행렬을 합산한다. 이후 행렬을 정규화하여 ‘good classification rate(GCR)’와 ‘error classification rate(ECR)’를 계산한다. 이 과정에서 타일 내부에 여러 클래스가 존재하는 경우, 알고리즘이 선택한 클래스가 차지하는 픽셀 비율만큼 행렬에 기여하도록 함으로써, ‘inhomogeneous unit’ 문제를 해결한다. 또한, 다중 전문가가 제공한 라벨을 통합할 때는 각 전문가의 가중 혼동 행렬을 단순히 합산한다. 이렇게 하면 이미지 크기와 타일 수에 따라 자동으로 가중치가 조정되며, 최종 GCR과 ECR은 퍼센트가 아닌 ‘가중 비율’로 표현된다. 이는 라벨의 불확실성을 정량적으로 반영한 결과이며, 기존의 0‑1 라벨 기반 정확도와는 차별화된다. 3절에서는 세그멘테이션 평가를 다룬다. 분류 결과에서 자연스럽게 발생하는 경계 정보를 ‘deduced segmentation’이라 정의하고, 이를 기반으로 두 가지 새로운 지표를 제안한다. 첫 번째는 ‘well‑segmented pixel measure’로, 전문가가 제시한 경계와 알고리즘이 탐지한 경계가 일치하는 픽셀 비율을 측정한다. 두 번째는 ‘mis‑segmented pixel measure’로, 경계가 놓친 픽셀 혹은 잘못 탐지된 픽셀 비율을 계산한다. 두 지표 모두 전문가의 확신 가중치를 적용해, 경계가 불명확한 영역에 대한 평가를 부드럽게 만든다. 경계 검출을 위한 픽셀 이웃 관계(4‑연결, 8‑연결 등)를 선택할 수 있으며, 실제 구현에서는 간단히 상하좌우 이웃을 이용해 경계 픽셀을 추출한다. 4절에서는 제안된 평가 방법을 실제 해저 음향 이미지에 적용한 사례를 제시한다. 두 명의 전문가가 각각 라벨과 확신 등급을 제공했으며, 자동화된 해저 지형 분류 알고리즘(예: SVM, k‑NN 등)과 비교하였다. 가중 혼동 행렬을 이용한 GCR은 기존 85 % 수준의 정확도보다 세밀하게 0.78 ~ 0.82 사이의 가중 비율을 보여주었다. 또한, 경계 평가 지표는 알고리즘 A가 경계 검출에 강점이 있음을, 알고리즘 B는 전반적인 분류는 우수하지만 경계 위치가 부정확함을 명확히 구분해 주었다. 이러한 결과는 기존 단일 정확도 지표만으로는 파악하기 어려운 알고리즘의 강점·약점을 드러낸다. 결론에서는 제안된 프레임워크가 (1) 라벨의 불확실성을 정량화하는 가중 혼동 행렬, (2) 다중 클래스가 혼재하는 타일 기반 분류 보정, (3) 경계 검출을 위한 두 단계 거리 측정이라는 세 가지 핵심 요소를 통해, 이미지 분류·세그멘테이션 평가에 새로운 표준을 제시한다고 강조한다. 또한, 의료 영상, 위성 사진, 로봇 비전 등 라벨링이 주관적이고 불확실성을 내포하는 다양한 분야에 적용 가능함을 제시하며, 향후 연구에서는 가중치 자동 학습, 다중 전문가 의견 융합 모델, 복합 복잡도 분석 등을 확장할 여지를 남긴다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기