시각적 질문으로 프롬프트를 최적화하는 적응형 의도 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트‑투‑이미지 모델에 사용자가 원하는 시각적 결과를 정확히 전달하기 어려운 문제를 해결하고자, 사용자의 잠재 의도를 시각적 특징 집합으로 표현하고 정보 이론에 기반한 질의를 통해 단계적으로 의도를 추론하는 Adaptive Prompt Elicitation(APE) 시스템을 제안한다. 실험 결과, 기존 수동 프롬프트 작성 및 자동 최적화 방법에 비해 적은 상호작용 단계로 이미지‑의도 정렬도를 19.8% 향상시켰다.

상세 분석

APE는 먼저 사용자의 초기 텍스트 입력을 “시드 프롬프트”로 받아, 이를 기반으로 잠재 의도 θ∗를 추정하기 위한 인터프리터(feature interpreter)를 구축한다. 이 인터프리터는 대형 언어 모델(LM)의 사전 지식을 활용해 “산”, “색상”, “스타일” 등 인간이 이해하기 쉬운 시각적 특징을 토큰화하고, 각 특징이 실제 이미지 생성에 미치는 영향을 확률적 베이지안 모델로 표현한다.

핵심 기술은 정보‑이론적 질의 선택이다. APE는 현재 의도에 대한 베이지안 사후분포 p(θ|D) (D는 지금까지의 사용자 선택 기록) 위에서 기대 정보 이득(EIG)을 계산한다. 구체적으로, 후보 시각적 질의 q_i(·)는 여러 이미지 옵션(예: 산·배낭·부츠·트레일)으로 구성되며, 사용자가 선택할 확률을 p(r|θ, q_i) 로 모델링한다. EIG(q_i)=𝔼_{θ∼p(θ|D)}

시각적 질문으로 프롬프트를 최적화하는 적응형 의도 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기