표현 정렬로 역문제 해결 확산 플로우 모델의 새로운 패러다임
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 사전 학습된 DINOv2 비전 인코더와 확산·플로우 기반 생성 모델의 내부 표현을 정렬(REPA)함으로써, 측정값만으로는 원본을 알 수 없는 역문제에서 재구성 품질과 지각적 현실감을 크게 향상시키는 방법을 제안한다. REPA를 손실에 추가하고, 근사 복원 이미지의 특징을 프록시로 사용해 정렬을 수행한다. 이론적으로는 DINOv2 임베딩 공간에서 발산 최소화와 잠재 상태가 깨끗한 이미지 쪽으로 수렴함을 증명하고, 실험에서는 초해상도, 박스 인페인팅, 가우시안·모션 디블러링 등 다양한 작업에서 기존 최첨단 방법 대비 품질·속도 모두 개선됨을 보여준다.
상세 분석
본 연구는 두 가지 핵심 아이디어를 결합한다. 첫 번째는 최근 확산·플로우 모델에 적용된 Representation Alignment(REPA) 기법을 역문제 해결에 확장한다는 점이다. REPA는 사전 학습된 자기지도 비전 인코더(DINOv2)의 임베딩과 모델 내부의 중간 표현을 패치 단위로 코사인 유사도로 정렬함으로써, 생성 모델이 학습 단계에서 얻지 못한 풍부한 의미 정보를 추론 단계에 주입한다. 기존 REPA는 훈련 시 ground‑truth 이미지가 필요했지만, 역문제에서는 이를 사용할 수 없으므로 저자들은 “프록시” 특징을 도입한다. 구체적으로, 초기에는 관측 y의 DINOv2 특징을 사용하고, 역방향 확산이 진행될수록 현재 추정된 기대값 E
댓글 및 학술 토론
Loading comments...
의견 남기기