인코더‑디코더 공동 대비 학습으로 밀집 예측 성능 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DeCon은 인코더와 디코더를 동시에 대비(contrastive) 방식으로 사전학습하는 프레임워크이다. 기존 SSL이 인코더만 학습하고 디코더는 별도로 fine‑tuning하는 한계를 극복하기 위해, 인코더 손실과 디코더 손실을 가중합한 비경쟁형 목표를 제시한다. 단일‑레벨(DeCon‑SL)과 다중‑레벨(DeCon‑ML) 두 가지 변형을 구현하고, 채널 드롭아웃과 디코더 깊이 감독을 도입해 파라미터 활용도를 높였다. COCO·COCO+·ImageNet‑1K에서 사전학습한 뒤 객체 검출, 인스턴스·시맨틱 분할 등 다양한 밀집 예측 과제에 적용했을 때, 기존 대비 평균 0.3‑1.4 AP·mIoU 향상을 기록하였다.

상세 분석

DeCon은 기존 대비 기반 자기지도 학습(SSL)이 인코더 중심으로 설계된 점을 근본적으로 재고한다. 핵심 아이디어는 “인코더‑디코더 대비 손실”을 동시에 최적화함으로써, 인코더가 추출한 고수준 의미 표현뿐 아니라 디코더가 복원·업샘플링 과정에서 활용하는 저수준 공간 정보를 사전학습 단계부터 풍부하게 만든다. 이를 위해 두 가지 구조적 변형을 제안한다. 첫 번째인 DeCon‑SL은 기존 SSL 파이프라인에 디코더와 대응 보조층(auxiliary layers)을 그대로 복제하고, 인코더 손실 L_enc와 디코더 손실 L_dec을 α와 1‑α 비율로 가중합한다. 여기서 α는 손실 균형을 조절하는 하이퍼파라미터이며, 실험에서는 0.5~0.7 사이가 최적으로 나타났다.

두 번째 변형인 DeCon‑ML은 디코더의 여러 레이어에 걸쳐 깊이 감독을 적용한다. 각 레벨 i에서 별도의 대비 손실 L_dec_i를 계산하고, 이를 평균해 L_dds를 만든 뒤 전체 손실에 반영한다. 이 과정에서 채널 드롭아웃을 도입해 스킵 연결을 통해 전달되는 피처 채널을 무작위로 차단한다. 이는 디코더가 특정 채널에 과도하게 의존하는 것을 방지하고, 인코더 전체 파라미터가 고르게 활용되도록 유도한다. 결과적으로 인코더의 bottleneck 표현이 디코더 전 단계에 걸쳐 지속적으로 영향을 미치게 되어, 보다 풍부하고 일반화 가능한 특징이 학습된다.

구현 측면에서 DeCon은 ResNet‑50을 백본으로, Fully Convolutional Network(FCN)와 Feature Pyramid Network(FPN) 두 종류의 디코더를 지원한다. SlotCon, DenseCL, PixPro 등 기존 대비 프레임워크를 그대로 가져와 보조층만 추가함으로써 파라미터 증가를 최소화했다. 특히 DeCon‑ML‑S(두 레벨만 사용)와 DeCon‑ML‑L(전체 네 레벨) 두 버전을 제공해, 동일 파라미터 예산에서 기존 SlotCon 대비 0.3~0.5 AP 향상을 입증했다.

실험 결과는 두드러진데, COCO에서 ResNet‑50 인코더를 사전학습한 경우 객체 검출(AP)와 인스턴스 분할(AP)에서 각각 +0.37, +0.32 향상을 보였으며, Pascal VOC와 Cityscapes에서 시맨틱 분할(mIoU) 역시 각각 +1.42, +0.50을 기록했다. 이러한 이득은 백본을 ConvNeXt‑Small으로 교체하거나, 사전학습 데이터를 ImageNet‑1K로 바꾸어도 일관되게 나타났다. 또한 제한된 라벨 데이터, 도메인 전이 상황에서도 성능 저하가 거의 없으며, 디코더를 포함한 전체 모델을 그대로 fine‑tuning해도 파라미터 비용이 크게 늘지 않는다.

요약하면, DeCon은 인코더‑디코더 구조를 대비 학습에 통합함으로써, 기존 인코더‑전용 SSL이 놓치던 저수준 공간 정보와 다중 스케일 특징을 효과적으로 학습한다. 채널 드롭아웃과 다중 레벨 감독이라는 두 가지 설계가 파라미터 활용 효율을 극대화하고, 다양한 밀집 예측 과제에서 실질적인 성능 향상을 입증한다. 이는 향후 비전 트랜스포머·U‑Net 계열 모델의 사전학습 전략에 새로운 패러다임을 제시한다.

인코더‑디코더 공동 대비 학습으로 밀집 예측 성능 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기