멀티모달 LLM 판정자를 위한 이중 레벨 프롬프트 최적화

멀티모달 LLM 판정자를 위한 이중 레벨 프롬프트 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 이미지 평가에 사용되는 멀티모달 LLM‑as‑a‑Judge의 프롬프트를 자동으로 개선하는 방법을 제안한다. 제한된 컨텍스트 윈도우 때문에 다수의 이미지 샘플을 동시에 처리하기 어려운 문제를 해결하고자, 이미지‑텍스트 변환(I2T) 프롬프트와 판정자 프롬프트를 공동으로 학습하는 이중 레벨 최적화 프레임워크 BLPO를 설계하였다. 4개의 이미지 데이터셋과 3개의 멀티모달 LLM에 대해 실험한 결과, 기존 APO·OPRO·TextGrad 등 기존 자동 프롬프트 최적화 기법보다 일관된 성능 향상을 달성하였다.

상세 분석

이 연구는 LLM‑as‑a‑Judge가 인간 평가와 일치하도록 프롬프트를 자동으로 최적화하는 ‘자동 프롬프트 최적화(Automatic Prompt Optimization, APO)’ 영역을 멀티모달 상황에 확장한다는 점에서 의미가 크다. 기존 텍스트‑전용 APO는 이미지와 같은 고차원 시각 정보를 직접 입력으로 사용할 경우, 각 이미지가 수천 개의 비주얼 토큰을 차지해 컨텍스트 윈도우(보통 4k~8k 토큰) 한계에 빠르게 도달한다. 논문은 이 한계가 ‘오류 샘플’(잘못된 예측) 집합을 충분히 확보하지 못하게 만들며, 결과적으로 프롬프트 업데이트가 과소적합되는 원인임을 실험적 그래프(Fig. 1)로 명확히 제시한다.

이를 극복하기 위해 제안된 BLPO는 두 단계의 최적화를 동시에 수행한다. 1) 이미지‑텍스트 변환(I2T) 프롬프트 q를 학습시켜, 원본 이미지를 단순 캡션이 아니라 평가에 직접 연관된 세부 시각 특성을 포함한 텍스트로 변환한다. 여기서 I2T 모델은 기존 고정된 캡셔너가 아니라, ‘학습 가능한 프롬프트’를 통해 원하는 속성(예: 색감, 디테일, 스타일)을 강조하도록 조정된다. 2) 변환된 텍스트 t_i = g(x_i; q)를 입력으로 사용해, 판정자 프롬프트 p를 LLM‑as‑Judge가 업데이트하도록 한다. 이때 업데이트는 LLM을 ‘프롬프트 옵티마이저’로 활용해, 오류 집합 I_B 에 대한 손실 감소를 최대화하는 방향으로 p′ = Update_p(p, {t_i, y_i, ŷ_i})를 생성한다.

BLPO는 외부 레벨(판정자 프롬프트 p)과 내부 레벨(I2T 프롬프트 q) 사이의 상호 의존성을 수식(8)‑(11)으로 정형화한다. 내부 최적화는 “p에 대한 손실 감소량을 최대화하는 q”를 탐색하며, 이는 LLM‑as‑optimizer가 과거 q와 해당 점수(score)를 히스토리 H에 저장하고, 새로운 q를 제안하도록 설계된 알고리즘(10)‑(11)으로 구현된다. 이렇게 얻어진 최적 q*는 외부 레벨에서 p를 업데이트하는 데 사용된다.

실험에서는 AGIN, SeeTRUE, ImageReward, UnsafeBench 네 개 데이터셋과 Llama‑4‑Scout‑17B, Llama‑4‑Maverick‑17B, Qwen2.5‑VL‑32B 세 모델을 대상으로, 최대 5라운드, 오류 샘플 10개 제한 하에 BLPO와 기존 OPRO, APO‑image, TextGrad을 비교하였다. 결과(Fig. 3)는 모든 데이터셋에서 BLPO가 Macro‑F1, 정확도, 안전성 지표 등에서 일관적으로 우위를 점함을 보여준다. 특히 컨텍스트 제한이 심한 상황(이미지 8~10개)에서도 텍스트 변환을 통한 압축 효과와 학습 가능한 캡션 프롬프트 덕분에 손실 감소가 크게 유지된다.

핵심 인사이트는 다음과 같다. (1) 멀티모달 LLM의 컨텍스트 제한은 프롬프트 최적화의 병목이 되며, 이를 텍스트 압축으로 완화할 수 있다. (2) 단순 캡션이 아닌, 평가 목적에 맞춘 ‘학습 가능한 I2T 프롬프트’가 이미지의 핵심 특성을 보존한다. (3) 이중 레벨 최적화는 서로 다른 파라미터 공간(텍스트 프롬프트 vs 이미지‑텍스트 변환) 사이의 시너지 효과를 창출한다. (4) LLM 자체를 프롬프트 생성기(optimizer)로 활용하는 접근은 추가 파라미터 비용 없이도 높은 적응성을 제공한다.

이러한 설계는 향후 멀티모달 생성 모델(텍스트‑투‑이미지, 비디오‑생성 등)의 자동 평가 파이프라인에 직접 적용 가능하며, 인간 라벨링 비용을 크게 절감하면서도 인간 선호와의 정렬도를 높이는 길을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기