자기생성 적대적 미세조정으로 LLM 정렬 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 대형 언어 모델을 외부 보상 모델 없이 하나의 모델 안에서 생성기와 판별기를 동시에 학습시키는 SGALM 프레임워크를 제안한다. few‑shot 인‑컨텍스트 학습을 이용해 합성 데이터를 생성하고, “Real/Fake” 질문을 통해 판별 신호를 얻어 최소-최대 게임을 수행한다. 이론적 수렴 증명과 GSM8K·ARC·MBPP 등 실험을 통해 기존 SFT·RLHF·자기플레이 방식보다 우수한 정렬 성능과 고품질 합성 데이터 생성 능력을 입증한다.

상세 분석

SGALM은 기존 정렬 파이프라인이 필요로 하는 대규모 인간 라벨링 비용을 크게 절감한다는 점에서 혁신적이다. 핵심 아이디어는 하나의 LLM을 공유 파라미터 θ로 두고, 동일 모델을 생성기 G와 판별기 D로 동시에 활용한다는 점이다. 생성 단계에서는 few‑shot 프롬프트(예: “주어진 예시를 따라 새로운 예시를 생성하라”)를 이용해 인‑컨텍스트 학습(ICL) 능력을 활용, 무작위성은 토큰 샘플링 온도와 프롬프트 조합을 통해 확보한다. 판별 단계에서는 “Real 혹은 Fake인가?”라는 이진 질문을 제시하고, 모델이 출력하는 ‘Real’ 확률 p_realθ(z)를 연속적인 판별 점수 D(z)로 정의한다. 이렇게 하면 별도의 분류기나 추가 파라미터 없이도 미분 가능한 손실을 얻을 수 있다.

학습은 전통적인 GAN의 최소‑최대 게임을 그대로 차용한다. 판별 손실 J(D) = −E_{z∼p_T}

자기생성 적대적 미세조정으로 LLM 정렬 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기