학습 없이 가능한 멀티모달 마스크드 디퓨전 모델 자체 교정

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

마스크드 디퓨전 모델은 토큰을 한 번에 여러 개 업데이트하지만, 이미 생성된 토큰을 고정해 두어 초기 오류가 누적되는 문제가 있다. 본 논문은 추가 학습이나 외부 평가자를 도입하지 않고, 사전 학습된 모델이 내재한 inductive bias를 활용해 샘플링 과정에서 토큰을 재마스킹하고 재생성하는 훈련‑무료 자체 교정 프레임워크를 제안한다. 텍스트‑이미지 생성 및 멀티모달 이해 벤치마크에서 품질 향상과 샘플링 단계 감소를 입증한다.

상세 분석

마스크드 디퓨전 모델(MDM)은 연속시간 마코프 체인(CTMC)을 τ‑leaping 방식으로 근사해 다수 토큰을 병렬로 복원한다. 이 과정에서 한 번 마스크가 해제된 토큰은 흡수 상태가 되어 이후 단계에서 수정이 불가능해 초기 오류가 전체 샘플에 영향을 미친다. 기존의 자체 교정 방법은 (i) 추가 모델을 학습·미세조정해 토큰 신뢰도를 추정하거나 (ii) 과거 단계의 likelihood를 재활용하는데, 이는 추가 비용과 부정확한 신호에 의존한다는 한계가 있다. 저자들은 사전 학습된 MDM이 이미 토큰별 확률 분포와 마스크‑재마스크 전이 확률을 내재하고 있음을 관찰하고, 이를 이용해 “재마스킹 스케줄 σₜ”를 동적으로 정의한다. 구체적으로, 현재 마스크 상태인 토큰에 대해 모델이 출력하는 확률 pₙ(·)의 엔트로피 혹은 최상위‑하위 확률 차이를 기준으로 낮은 신뢰도를 가진 토큰을 선택해 다시 마스크하고, 이후 동일한 역전파 과정에서 재생성한다. 이때 모델 파라미터는 전혀 변하지 않으며, 별도의 평가 네트워크도 필요하지 않다. 중요한 설계 선택은 (1) 재마스킹 시점의 확률을 현재 시점이 아닌 토큰이 처음 생성된 시점의 확률로 추정한다는 점, (2) τ‑leaping 단계 내에서 재마스킹을 삽입해 병렬성을 크게 해치지 않으면서도 오류 누적을 억제한다는 점이다. 실험에서는 텍스트‑이미지 생성 벤치마크인 GenEval과 멀티모달 이해 벤치마크 VLMEvalKit에서 기존 Top‑K, 기존 학습 기반 교정 방법보다 높은 FID, CLIPScore, 정확도 등을 기록했으며, 샘플링 스텝을 64→48 수준으로 감소시켜도 품질 저하가 없었다. 또한 다양한 MDM 아키텍처(Lumina‑DiMOO, UniDiffuser 등)에 적용했을 때 일관된 성능 향상이 관찰돼 프레임워크의 범용성이 입증되었다.

학습 없이 가능한 멀티모달 마스크드 디퓨전 모델 자체 교정

초록

상세 분석

댓글 및 학술 토론

의견 남기기