BLISS 가벼운 이중 레벨 영향 점수 데이터 선택 방법

BLISS 가벼운 이중 레벨 영향 점수 데이터 선택 방법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BLISS는 외부 사전학습 모델에 의존하지 않고, 작은 프록시 모델과 점수 모델을 이용해 데이터 샘플의 장기 영향을 추정하는 이중 레벨 최적화 프레임워크이다. 상위 레벨에서는 점수 모델을 학습시켜 각 샘플에 가중치를 부여하고, 하위 레벨에서는 가중치가 적용된 손실로 프록시 모델을 수렴시켜 검증 성능을 최적화한다. C4 데이터의 부분집합을 사용해 410M‑2.8B 규모의 모델을 사전학습한 결과, 1B 모델에서는 기존 최첨단 방법 대비 1.7배 빠르게 동일 성능에 도달했으며, 여러 다운스트림 태스크에서도 일관된 향상을 보였다.

상세 분석

BLISS는 데이터 선택 문제를 이중 레벨(bilevel) 최적화 문제로 공식화한다는 점에서 기존 방법과 근본적으로 차별화된다. 하위 레벨에서는 프록시 모델 θₚ를 훈련 데이터에 대한 가중치 Pᵢ(θₛ) 를 적용한 손실 G(θₚ,θₛ) 를 최소화한다. 여기서 가중치는 점수 모델 θₛ가 출력하는 스칼라 h(θₛ;ξᵢ) 를 소프트맥스 형태로 정규화한 값이며, 이는 각 샘플이 최종 검증 성능에 미치는 장기 영향을 추정한다. 프록시 모델은 실제 대규모 LLM을 대체하기 위해 설계된 경량 모델이며, LLM θ_tr 의 로짓과 KL‑다이버전스 손실을 통해 지식 증류(distillation)한다. 이는 프록시가 LLM의 출력 분포를 모방하도록 강제함으로써, 프록시가 수렴했을 때 얻어지는 파라미터 θₚ* 가 실제 LLM이 동일 데이터로 훈련될 경우의 행동을 근사하도록 만든다.

상위 레벨 목표 Φ(θₛ)=E_{ζ∼D_val}


댓글 및 학술 토론

Loading comments...

의견 남기기