균형 잡힌 LLM 삭제를 위한 분포 강건 최적화 프레임워크 BalDRO

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BalDRO는 대규모 언어 모델(LMM)에서 특정 정보를 삭제할 때 발생하는 샘플별 학습 난이도 차이를 최소화하기 위해 분포 강건 최적화(DRO)를 적용한 양방향(min‑sup) 프레임워크이다. 내부 단계에서는 KL‑다이버전스 제한 안에서 가장 손실이 큰 ‘최악의’ 데이터 분포를 찾아내고, 외부 단계에서는 그 분포에 기반해 모델 파라미터를 업데이트한다. 논문은 이를 두 가지 실용적 구현인 그룹‑DRO 기반 BalDRO‑G와 Donsker‑Varadhan 듀얼 기반 BalDRO‑DV로 구체화하고, TOFU와 MUSE 벤치마크에서 기존 방법 대비 기억 삭제 품질과 모델 유용성 모두 크게 향상됨을 실증한다.

상세 분석

BalDRO는 LLM 삭제 문제를 “균형 잡힌 삭제”라는 새로운 목표로 재정의한다. 기존의 NPO, SimNPO, SatImp 등은 사전 정의된 가중치 함수나 참조 모델에 의존해 샘플별 손실을 조정했지만, 삭제 난이도가 시간에 따라 변하고 사전 정보가 부족한 상황에서 비효율적이었다. BalDRO는 이러한 한계를 극복하기 위해 분포 강건 최적화(DRO)의 min‑sup 구조를 도입한다. 구체적으로, forget set (D_f)의 경험적 분포 (\hat D_f)에 대해 KL‑다이버전스 반경 (\eta) 이내의 모든 가능한 분포 (Q_f) 중에서 손실 (\ell_f)의 기대값을 최대로 만드는 ‘최악의’ 분포를 찾는다(내부 sup 단계). 이때 KL‑제약은 Donsker‑Varadhan 듀얼을 통해 (\sup_{Q_f} E_{Q_f}

균형 잡힌 LLM 삭제를 위한 분포 강건 최적화 프레임워크 BalDRO

초록

상세 분석

댓글 및 학술 토론

의견 남기기