멀티모달 프롬프트 최적화: MLLM의 잠재력을 끌어올리다
초록
본 논문은 텍스트에만 국한된 기존 프롬프트 최적화 기법의 한계를 지적하고, 텍스트와 비텍스트(이미지, 비디오, 분자 등) 프롬프트를 쌍으로 다루는 멀티모달 프롬프트 최적화 문제를 정의한다. 이를 해결하기 위해 제안된 Multimodal Prompt Optimizer(MPO)는 (i) 정렬 보존 탐색을 통해 텍스트와 비텍스트 프롬프트를 공동 업데이트하고, (ii) 이전 평가 결과를 사전으로 활용하는 Bayesian‑UCB 기반 선택 전략으로 후보를 효율적으로 선별한다. 10개 데이터셋(이미지, 비디오, 분자 등)에서 기존 텍스트‑전용 방법들을 크게 앞서는 성능을 보이며, 탐색 효율성도 42% 향상시킨다.
상세 분석
본 연구는 멀티모달 대형 언어 모델(MLLM)이 텍스트와 비텍스트 입력을 동시에 처리할 수 있다는 점을 활용해, 프롬프트 자체를 멀티모달 형태(텍스트 + 비텍스트)로 정의한다는 근본적인 전환을 제시한다. 기존 자동 프롬프트 최적화(APO) 방법은 텍스트만을 변형하거나 연속적인 임베딩(soft prompt)을 학습하는데, 이는 비텍스트 정보가 제공하는 풍부한 시각·구조적 힌트를 전혀 활용하지 못한다. 논문은 이러한 한계를 ‘멀티모달 프롬프트 최적화(MMPO)’라는 새로운 문제 정의로 정형화하고, 두 가지 핵심 과제—(1) 텍스트와 비텍스트 간의 의미 정렬을 유지하면서 탐색해야 함, (2) 확장된 조합 공간에서 효율적인 후보 선택이 필요함—을 명확히 제시한다.
MPO의 탐색 단계는 ‘정렬 보존 탐색(alignment‑preserving exploration)’이라 부르며, 실패 집합 F를 기반으로 MLLM에게 통합 피드백 ∇p = (∇t, ∇m)를 생성하도록 요청한다. 이 피드백은 텍스트 형태로 제공되지만, 텍스트와 비텍스트 모두에 대한 약점을 동시에 포착한다. 이후 텍스트 프롬프트 t′와 비텍스트 조건 c를 동시에 출력하고, c를 텍스트‑투‑이미지, 텍스트‑투‑비디오, 텍스트‑투‑분자 등 전용 생성기 g에 전달해 비텍스트 프롬프트 m′ = g(c)를 얻는다. 이렇게 함으로써 텍스트와 비텍스트가 일관된 의미 흐름을 유지한다는 점이 핵심이다.
탐색 연산자는 ‘생성(generation)’, ‘편집(edit)’, ‘혼합(mix)’의 세 가지로 구성된다. 생성 연산자는 완전히 새로운 비텍스트 샘플을 만들고, 편집 연산자는 기존 비텍스트를 미세 조정하며, 혼합 연산자는 두 비텍스트를 결합해 새로운 변형을 만든다. 이 세 연산자는 서로 보완적으로 작동해 탐색 폭을 넓히면서도 의미적 일관성을 해치지 않는다.
후보 선택 단계에서는 기존 APO가 각 후보를 독립적으로 평가하는 반면, MPO는 ‘Prior‑Inherited Bayesian UCB’ 전략을 도입한다. 부모 프롬프트의 성능 점수를 사전(mean)으로 사용하고, 베이지안 업데이트를 통해 불확실성을 추정한다. 이렇게 하면 탐색 초기에 높은 잠재력을 가진 영역을 빠르게 warm‑start할 수 있어, 평가 비용을 크게 절감한다. 실험 결과, 텍스트‑전용 방법 대비 평균 7.3% 정확도 향상과 함께, 평가 예산을 42% 감소시켰다.
다양한 모달리티(이미지, 비디오, 분자)와 10개 데이터셋에 걸친 벤치마크에서 MPO는 기존 최첨단 텍스트‑전용 APO(예: AutoPrompt, PromptBoost 등)를 일관적으로 앞섰다. 특히, 이미지 분류·캡션, 비디오 질의응답, 약물 특성 예측 등 고차원 비텍스트 정보를 요구하는 태스크에서 그 효과가 두드러졌다.
이 논문은 (1) 멀티모달 프롬프트를 공식화함으로써 APO 연구의 범위를 확장하고, (2) 정렬 보존 탐색과 베이지안 사전 활용이라는 두 가지 혁신적 메커니즘을 통해 탐색 효율성과 성능을 동시에 달성했다는 점에서 의미가 크다. 향후 연구는 더 복잡한 모달리티(오디오, 3D 포인트 클라우드)와 실시간 인터랙티브 프롬프트 튜닝, 그리고 프롬프트 해석 가능성 향상 등에 적용될 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기