마스크 기반 파인튜닝으로 자동회귀 LLM의 지식 주입 효율 향상
초록
본 논문은 확산형 마스크 언어 모델(dLLM)이 파인튜닝 시 적은 샘플로도 높은 QA 성능과 역전(Reverse) 저주 회피를 보이는 점을 확인하고, 동일한 마스크 복원 목표를 자동회귀 LLM(arLLM)에 적용한 ‘마스크 파인튜닝’ 기법을 제안한다. 마스크 파인튜닝은 파라프레이즈 없이도 지식 주입을 성공시키고, 역전 저주를 크게 완화한다. 또한 수학 문제 SFT에도 적용해 성능 향상을 입증한다.
상세 분석
이 연구는 두 가지 핵심 가설을 설정한다. 첫 번째 가설은 dLLM이 파라프레이즈 없이도 문서 기반 지식을 QA 형태로 일반화할 수 있다는 점이다. 이는 dLLM이 학습 과정에서 무작위 마스크를 통해 다양한 컨텍스트와 토큰 순서를 경험함으로써 암묵적인 데이터 증강 효과를 얻기 때문이다. 실험에서는 N2D/D2N, Biography, Wiki 등 세 가지 데이터셋에 대해 dLLM(LLaDA‑8B)과 여러 arLLM(Llama‑8B, Llama‑3B, Qwen‑7B, Qwen‑4B)을 비교하였다. 결과는 dLLM이 파라프레이즈가 없는 상태에서도 전방(forward)·후방(backward) 질문 모두에서 90% 이상 정확도를 달성한 반면, arLLM은 파라프레이즈가 없을 경우 후방 질문에서 0%에 가까운 성능을 보이며 역전 저주에 취약함을 확인했다.
두 번째 가설은 이러한 차이가 모델 아키텍처가 아니라 ‘마스크 복원(demasking)’ 목표 자체에 기인한다는 주장이다. 이를 검증하기 위해 저자들은 arLLM에 마스크 파인튜닝(Masked Fine‑Tuning) 방식을 도입했다. 구체적으로, 원본 문서를 무작위로 마스크하고, 마스크된 입력을 프롬프트에 삽입해 모델이 원본을 복원하도록 학습한다. 마스크 비율과 위치를 매 스텝마다 바꾸어 하나의 문서가 다수의 학습 샘플처럼 활용되도록 설계하였다. 이 방식은 arLLM의 기존 인코더‑디코더 구조를 그대로 유지하면서도, dLLM이 갖는 양방향 컨텍스트 학습 효과를 모방한다.
실험 결과는 매우 설득력 있다. 마스크 파인튜닝을 적용한 arLLM은 파라프레이즈 없이도 전방 QA 정확도가 65~99% 수준으로 크게 상승했고, 특히 후방 QA 정확도가 90%에 육박하거나 95% 이상으로 개선되어 역전 저주가 거의 사라졌다. 파라프레이즈를 추가했을 경우에도 기존 arLLM 대비 전반적인 성능 격차가 크게 줄어들었다. 표 1의 수치를 보면, Llama‑8B는 ‘Masked + no paraphrase’ 조건에서 전방 65%, 후방 95%를 기록했으며, ‘Masked + paraphrase’에서는 전방 97%, 후방 99%에 근접한다. 이는 dLLM과 거의 동등한 수준이다.
또한 저자들은 마스크 목표가 지식 주입에만 국한되지 않음을 보이고자, 수학 문제에 대한 SFT( supervised fine‑tuning)에도 동일한 마스크 방식을 적용했다. 두 개의 수학 데이터셋(MATH‑QA, GSM‑8K)에서 마스크 SFT는 표준 SFT 대비 정확도와 ROUGE‑1 점수에서 평균 3~5%p 상승을 보였으며, 특히 복잡한 단계별 풀이를 요구하는 문제에서 더 큰 이점을 나타냈다. 이는 마스크 복원이 모델에게 “부분적인 정답을 보고 전체를 추론”하도록 훈련시켜, 추론 능력 자체를 강화한다는 점을 시사한다.
이 논문의 주요 기여는 다음과 같다. (1) dLLM이 파라프레이즈 없이도 효율적인 지식 주입이 가능함을 실증적으로 입증하였다. (2) 마스크 복원 목표가 역전 저주를 근본적으로 완화한다는 메커니즘을 제시했다. (3) arLLM에 간단히 적용 가능한 마스크 파인튜닝 프레임워크를 설계해, 기존 파라프레이즈 기반 데이터 증강 비용을 크게 절감한다. (4) 수학 SFT 등 다른 도메인에도 일반화 가능함을 실험적으로 검증하였다.
한계점으로는 현재 실험이 8B 이하 규모의 모델에 국한되어 있어, 70B 이상 초대형 모델에 동일한 효과가 유지되는지는 미확인이다. 또한 마스크 비율, 마스크 토큰 선택 전략 등 하이퍼파라미터에 대한 체계적인 탐색이 부족하며, 실제 기업 환경에서 지속적인 업데이트 파이프라인에 적용할 때 발생할 수 있는 메모리·시간 비용에 대한 정량적 분석이 필요하다. 향후 연구에서는 대규모 모델에 대한 확장성 검증과, 마스크 전략을 동적으로 최적화하는 메타‑학습 기법을 탐구할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기