확장형 마스크 길이 자동 탐색, CAL로 DLM 인필링 성능 혁신
초록
Diffusion Language Model(DLM)은 첫 번째 디노이징 단계에서 나타나는 “Oracle Peak”와 “Length Bias” 현상을 이용해 사전 지정된 마스크 길이 없이도 최적의 인필링 길이를 추정할 수 있다. 저자들은 이를 보정한 신뢰도 Φc(L)를 기반으로 단일 전방 패스만으로 길이 후보를 탐색하는 훈련‑프리 방법 CAL을 제안한다. 실험 결과, 코드 인필링에서 Pass@1을 최대 47.7%·40.5% 향상시키고, 텍스트 인필링에서 BLEU‑2와 ROUGE‑L을 각각 8.5%·9.9% 끌어올렸다.
상세 분석
본 논문은 DLM이 마스크된 구간의 길이를 사전에 알지 못하면 성능이 급격히 저하되는 문제를 지적한다. 이를 해결하기 위해 저자들은 첫 번째 디노이징 단계에서 모델이 출력하는 토큰별 최대 확률의 평균값, 즉 Φ(L)=1/L∑j∈Imask maxv pj(v) 을 정의한다. 실험을 통해 Φ(L)은 실제 정답 길이 L* 근처에서 국소적인 최대값(Oracle Peak)을 형성하지만, 전체 길이가 증가함에 따라 전반적인 감소 추세(Length Bias)도 동시에 나타난다. Length Bias는 마스크 길이가 길어질수록 컨텍스트 제약이 약해져 모델의 불확실성이 커지는 현상으로, Oracle Peak을 가시화하는 데 방해가 된다.
저자들은 이 편향을 보정하기 위해 이중 지수 함수 B(L)=a·e^{‑bL}+c·e^{‑dL}+e 를 100개의 비정답 길이 샘플에 피팅한다. 이후 보정된 신뢰도 Φc(L)=Φ(L)/B(L) 를 사용하면 길이 의존적인 감소가 제거되어 Oracle Peak이 전역적인 최적점으로 부각된다.
CAL은 이러한 Φc(L) 를 활용해 후보 길이 집합 R 내에서 단일 전방 패스로 Φc(L) 를 계산하고, 양방향 힐클라임(bidirectional hill‑climbing) 알고리즘으로 최적 길이 ˆL을 탐색한다. 초기값 L_init은 간단한 휴리스틱(예: 평균 정답 길이)으로 설정하고, 연속 D번 개선이 없을 때 탐색을 종료한다. 탐색 단계는 한 번의 포워드 연산만 필요하므로 추가 지연이 최소화된다.
실험에서는 LLaDA‑8B‑Base, DiffuCoder‑Base 등 다양한 DLM에 CAL을 적용했으며, 코드 인필링(HumanEval‑Infilling)에서 Pass@1이 고정 길이 대비 최대 47.7% 향상되고, 기존 채팅 기반 적응 길이 방법 대비 40.5% 개선되었다. 텍스트 인필링에서는 BLEU‑2와 ROUGE‑L이 각각 8.5%·9.9% 상승했다. 또한, 보정 함수 B(L)를 한 번만 학습해 모든 모델과 태스크에 재사용 가능함을 보였다.
핵심 기여는 (1) 첫 번째 디노이징 단계에서 길이 정보를 내재하고 있음을 발견하고, (2) Length Bias를 정량화·보정하는 방법을 제시하며, (3) 훈련‑프리 길이 탐색 프레임워크 CAL을 설계해 DLM 인필링 성능을 크게 끌어올렸다는 점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기