GFlowPO 생성 흐름 네트워크 기반 언어 모델 프롬프트 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
GFlowPO는 오프‑policy Generative Flow Network와 재생 버퍼를 활용해 프롬프트 탐색을 효율화하고, 동적 메모리 업데이트(DMU)로 메타‑프롬프트를 점진적으로 개선한다. 이를 통해 적은 샘플로도 높은 성능을 보이는 프롬프트를 자동으로 찾으며, 텍스트 분류·지시 유도·질문 응답 등 다양한 베이스라인을 능가한다.
상세 분석
본 논문은 프롬프트 최적화를 베이지안 사후 추론 문제로 재정의하고, 그 근사분포를 GFlowNet으로 학습한다는 점에서 기존 RL 기반 접근법과 근본적으로 차별화된다. 사후분포 p(z|D,M)∝p(D|z)·pref(z|M)에서 p(D|z)는 훈련 데이터에 대한 정확도(AD)로 대체하고, pref(z|M)는 메타‑프롬프트 M에 조건화된 레퍼런스 LM의 확률로 정의한다. 이렇게 하면 희소한 보상 신호에도 불구하고 보상 R(z;M)=AD(z)·pref(z|M) 를 직접 사용해 GFlowNet이 목표 밀도에 비례하는 샘플을 생성하도록 학습한다.
핵심 기술은 두 단계의 교번이다. STEP‑A에서는 VarGrad 기반의 전역 경로 일관성 손실 L(θ;M)=E_{z∼π}
댓글 및 학술 토론
Loading comments...
의견 남기기