밀리시드와 교차학습을 활용한 밀두정밀 분할 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 SegFormer‑MiT‑B4 기반의 두 단계 하이브리드 학습과 반복적인 교사‑학생 루프를 결합한 자기학습 프레임워크를 제안한다. 제한된 라벨 데이터와 풍부한 비라벨 데이터를 효율적으로 활용해 의사라벨을 정제하고, 저해상도 사전학습 후 고해상도 미세조정으로 정확도를 향상시킨다. 10‑fold 교차검증과 테스트‑타임 증강을 포함한 앙상블 기법을 적용해 개발 단계 mIoU 0.748, 테스트 단계 0.7099를 달성하였다.

상세 분석

이 연구는 농업 영상에서 흔히 마주치는 라벨 부족 문제를 해결하기 위해 ‘교사‑학생’ 자기학습 구조를 도입하였다. 초기 단계에서는 제한된 실제 라벨(99개)을 사용해 SegFormer‑MiT‑B4 모델을 학습시켜 기본 교사 모델을 만든다. 이 교사는 대규모 비라벨 이미지에 대해 고신뢰도 의사라벨을 생성하고, 신뢰도 임계값을 적용해 품질을 보장한다. 이후 학생 모델은 두 단계로 훈련된다. 첫 번째 단계는 512×512 저해상도 이미지에 대해 40 epoch, 배치 8, 학습률 6e‑5 로 의사라벨 데이터를 전부 사용해 처음부터 학습한다. 이는 모델이 전반적인 형태와 패턴을 빠르게 습득하도록 돕는다. 두 번째 단계에서는 1024×1024 고해상도 실제 라벨 데이터를 이용해 25 epoch, 배치 1, 학습률 1e‑5 로 미세조정한다. 여기서 AdamW 옵티마이저와 강력한 데이터 증강(크롭, 플립, 회전, 스케일, 밝기·대비, HSV 변환 등)이 과적합을 방지하고 일반화를 촉진한다.

핵심 혁신은 ‘반복 교사‑학생 루프’이다. Stage 2에서 얻은 정제된 학생 모델을 새로운 교사로 재사용해 의사라벨을 다시 생성하고, 이 과정을 여러 차례 반복함으로써 라벨 품질과 모델 성능이 점진적으로 향상된다. 또한, 각 학습 사이클마다 10‑fold 교차검증을 수행해 여러 모델을 확보하고, 추론 시에는 모델 앙상블과 테스트‑타임 증강(TTA)을 적용한다. TTA는 원본, 수평·수직 플립, 90도 회전, 다중 스케일(0.75×, 1.25×)을 포함하며, 각 변형에 대한 로짓을 원래 위치로 복원한 뒤 평균한다. 최종 마스크는 로짓을 업샘플링하고 argmax 후 512×512 형식으로 저장한다.

실험 결과, 제안된 파이프라인은 개발 단계에서 mIoU 0.748, 테스트 단계에서 0.7099를 기록했으며, 이는 제한된 라벨만으로도 높은 수준의 세그멘테이션 성능을 달성했음을 의미한다. 특히, 저해상도 사전학습과 고해상도 미세조정의 결합이 전역적인 특징 학습과 국부적인 디테일 복원 사이의 균형을 효과적으로 맞추었다는 점이 주목할 만하다.

한계점으로는 백본이 SegFormer‑MiT‑B4에 고정돼 있어 다른 트랜스포머 기반 구조와의 비교가 부족하고, 의사라벨 생성 시 신뢰도 임계값 설정이 경험적이라는 점이 있다. 향후 연구에서는 백본 다양화, 라벨 품질 자동 평가, 그리고 멀티스케일 피처 융합을 통한 성능 향상이 기대된다.

밀리시드와 교차학습을 활용한 밀두정밀 분할 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기