추론 인식 프롬프트 최적화로 블랙박스 LLM 정렬 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 프롬프트 최적화와 추론 스케일링(BEST‑OF‑N, MAJORITY VOTING)을 동시에 고려하는 IAPO 프레임워크를 제안한다. 고정 예산 하에서 최적의 프롬프트와 샘플 수(N)를 선택하도록 설계된 PSST 알고리즘을 통해 다중 목표(유용성, 무해성 등)와 비용 제약을 만족하는 정책을 학습한다. 실험은 6개 과제에서 기존 방법보다 우수한 성능을 보이며, 추론 인식이 없는 프롬프트 최적화가 발생시킬 수 있는 정렬 오류를 이론적으로와 실증적으로 입증한다.

상세 분석

IAPO는 “프롬프트 × 추론 스케일링”이라는 이중 차원을 정책 공간으로 정의한다. 구체적으로 각 팔(arm)은 (프롬프트 p, 샘플 수 N) 쌍으로 표현되며, 여기서 N은 BEST‑OF‑N 혹은 MAJORITY VOTING과 같은 추론 전략에 따라 달라진다. 논문은 이를 컨텍스트 기반 최적 팔 식별(contextual best‑arm identification) 문제로 정형화하고, 사용자가 제공하는 가중치 벡터 w (유용성, 무해성, 비용 등)와 예산 B 를 조건으로 Q‑함수 Qα(c,a)=E

추론 인식 프롬프트 최적화로 블랙박스 LLM 정렬 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기