무감독 프롬프트 에이전트 UPA 트리 탐색과 BTL 기반 선택
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
UPA는 감독 신호 없이도 프롬프트를 최적화할 수 있는 에이전트이다. 트리 구조를 이용해 다중 경로를 동시에 탐색하고, LLM을 판단자로 활용한 세밀한 쌍대 비교를 통해 로컬 피드백을 얻는다. 로컬 비교를 베이지안 방식으로 집계한 뒤, 브래들리‑터키‑루스(BTL) 모델을 이용해 전역 순위를 추정해 최종 프롬프트를 선택한다. 실험 결과, 기존 감독 기반 방법과 비교해 일관된 성능 향상을 보였다.
상세 분석
UPA는 기존 프롬프트 에이전트가 필요로 하던 지도형 보상 신호를 완전히 배제하고, LLM 자체를 ‘판단자’로 활용한다는 점에서 혁신적이다. 핵심 아이디어는 두 단계로 나뉜다. 첫 번째 단계는 트리 기반 탐색이다. 초기 프롬프트를 루트로 두고, 각 노드는 현재 프롬프트, 각 엣지는 최적화 LLM이 생성한 변형을 의미한다. 탐색 과정에서 수정된 MCTS를 적용하는데, 보상 대신 부모‑자식 간의 쌍대 비교 점수를 Q(v)로 사용한다. 여기서는 UCB 공식을 변형해 방문 횟수와 평균 점수 외에 문장 임베딩 기반 다양성 페널티 D(v)를 도입해 동일 의미의 브랜치를 과도하게 탐색하는 것을 억제한다.
두 번째 단계는 선택이다. 로컬 비교는 ‘소프트 윈’ 신호 y∈
댓글 및 학술 토론
Loading comments...
의견 남기기