분포 불일치를 메우는 RL 기반 데이터 재작성 에이전트

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다운스트림 SFT에서 발생하는 분포 불일치를 완화하기 위해, QA‑스타일 생성 분포에 맞는 고품질 재작성 데이터를 생성하는 강화학습(RL) 기반 에이전트를 제안한다. 정책은 LoRA 패치를 이용해 고정된 베이스 모델 위에 경량으로 학습되며, 작업 일관성, 분포 정렬, 다양성을 동시에 최적화한다. 실험 결과, 기존 SFT와 동등한 성능을 유지하면서 비다운스트림 벤치마크에서 평균 12.34%의 망각 감소를 달성한다.

상세 분석

이 연구는 대형 언어 모델(LLM)의 다운스트림 파인튜닝 과정에서 발생하는 ‘분포 미스매치’를 근본적으로 해결하려는 시도이다. 기존 데이터 재작성 기법은 프롬프트에 의해 제한된 조건부 분포 π₀(·|x, y★, x_prompt) 에서 샘플을 뽑아 목표를 생성하지만, 실제 SFT는 입력 x 만을 조건으로 하는 QA‑스타일 생성 분포 π₀(·|x) 와 차이가 있다. 따라서 재작성된 데이터가 모델의 자연스러운 생성 방식과 일치하지 않아 망각을 완전히 방지하지 못한다는 점을 지적한다.

논문은 이를 정책 학습 문제로 재구성한다. 베이스 모델 π₀ 은 고정하고, LoRA 어댑터를 통해 경량 파라미터 ϕ 만을 학습함으로써 ‘패치’ 형태의 작은 수정만을 허용한다. 이렇게 하면 정책이 급격히 드리프트하는 것을 방지하고, 기존 모델의 지식을 보존하면서도 필요한 부분만 조정할 수 있다.

보상 설계는 세 가지 요소로 구성된다. 첫째, 작업 일관성 보상 r_task 은 이진값으로, 정답 정확도와 추론 논리성을 검증하는 두 단계 검증 파이프라인을 통해 결정된다. 둘째, 분포 정렬 보상 r_dist 은 고정된 베이스 모델 π₀ 을 사용해 재작성 텍스트 ỹ 의 길이 정규화 음‑로그우도(NLL)를 계산하고, 동일 입력에 대한 후보군 평균·표준편차로 정규화한 뒤 시그모이드 함수를 적용해 0~1 사이로 매핑한다. 이는 후보군 간 스케일 차이를 제거하고, 정책이 QA‑스타일 분포에 더 가깝게 생성하도록 유도한다. 셋째, 다양성 보상 r_div 은 의미적 다양성을 정량화한다. 후보군 S₊ₓ (작업 일관성을 통과한 샘플) 에 대해 임베딩 f(·) 을 적용하고, 코사인 거리 기반의 쌍별 거리 d(i,j) 를 구한다. 전체 집합 다양성 D(S₊ₓ) 를 평균 쌍거리로 정의하고, 각 샘플의 ‘마진 기여도’ Δ(k) = D(S₊ₓ) − D(S₊ₓ{ỹ(k)}) 를 계산해 보상에 반영한다. 이렇게 하면 템플릿 중심의 모드 붕괴를 방지하고, 실제 의미적 차이를 만든 샘플에만 보상이 주어진다.

보상은 r = r_task + r_task ·

분포 불일치를 메우는 RL 기반 데이터 재작성 에이전트

초록

상세 분석

댓글 및 학술 토론

의견 남기기