마스크 확산 언어 모델의 암묵적 정규화 조정: k‑패리티를 통한 일반화 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 마스크 확산 언어 모델(MDLM)의 학습 목표를 신호와 잡음 두 영역으로 분해하고, 잡음 영역이 암묵적인 정규화 역할을 함을 이론적으로 증명한다. 이를 k‑패리티 문제에 적용해 MDLM이 전통적인 “그로킹” 현상을 겪지 않고 즉시 일반화에 도달함을 실험적으로 확인한다. 또한 마스크 확률 분포를 신호‑최적화 형태로 재설계해 50M‑~8B 파라미터 규모의 모델에서 퍼플렉시티와 다운스트림 성능을 각각 최대 8.8 %·5.8 % 향상시킨다.

상세 분석

본 연구는 먼저 마스크 확산 손실을 L(θ)=E_{x,t,m}

마스크 확산 언어 모델의 암묵적 정규화 조정: k‑패리티를 통한 일반화 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기