데이터 오염이 분류 정확도에 미치는 영향 분석

본 논문은 원격 탐사 이미지의 미등록 현상을 데이터 오염 모델로 형식화하고, 오염 비율 ε에 대해 분류 정확도 손실이 ε/(1‑ε) 이하임을 이론적으로 증명한다. 제안된 경계는 기존 영역 적응 이론보다 더 엄밀하며, 무한 VC 차원을 갖는 분류기에도 적용 가능함을 보인다.

저자: Donghui Yan, Peng Gong, Aiyou Chen

본 논문은 원격 탐사 이미지의 미등록 현상을 데이터 오염 모델로 정형화하고, 이 오염이 분류 정확도에 미치는 영향을 이론적·실험적으로 분석한다. 서론에서는 이미지가 잘못 정렬될 경우 토지 피복 분류, 변화 탐지, 기후·수문 모델링 등에 큰 영향을 미칠 수 있음을 강조하고, 기존 연구에서 0.5픽셀 이하의 오차만 허용한다는 점을 지적한다. 이러한 현실적 제약을 극복하기 위해 저자들은 데이터 오염을 “원본 분포 G에 ε 비율만큼 임의의 분포 H를 섞은 새로운 분포 Ĝ”라는 형태로 모델링한다. 여기서 ε는 전체 데이터(픽셀) 중 오염된 비율이며, H는 라벨 플리핑, 특성 값 교체, 가우시안·코시 잡음 등 다양한 오류를 포괄한다. 이후 통계 학습 프레임워크를 도입하여 0‑1 손실을 기준으로 베이즈 위험 R*와 학습된 분류기 fₙ의 위험 R(fₙ)를 정의한다. 보편적 일관성(Universally Consistent) 가정을 갖는 분류기라면 n→∞일 때 R(fₙ)→R*가 성립한다. 논문은 훈련 데이터가 오염된 경우(Ĝ)와 테스트 데이터가 원본(G)인 상황을 고려한다. 위험을 R(ĥfₙ)‑R* =

데이터 오염이 분류 정확도에 미치는 영향 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기