최적화 기반 에이전트 플래닝으로 구현한 합성 이미지 검색
초록
OSCAR는 합성 이미지 검색(CIR)에서 기존의 단일 임베딩 방식과 휴리스틱 에이전트 방식을 넘어, 오프라인 단계에서 혼합정수계획(MIP)으로 최적의 도구 호출 경로를 도출하고 이를 ‘골든 라이브러리’에 저장한다. 온라인에서는 이 라이브러리를 인‑컨텍스트 데모로 활용해 비전‑언어 모델(VLM) 플래너를 효율적으로 유도함으로써, 적은 학습 데이터(10%)만으로도 최신 SOTA를 능가하는 성능을 달성한다.
상세 분석
OSCAR 논문은 합성 이미지 검색이라는 복합 멀티모달 과제를 두 가지 기존 패러다임—통합 임베딩 기반 검색과 휴리스틱 에이전트 기반 검색—의 근본적인 한계에서 출발한다. 통합 임베딩 방식은 하나의 고정된 잠재공간에 모든 시각·언어 정보를 압축하려다 보니, 도메인 간 차이와 세부 속성(색상, 질감, 패턴 등)를 포착하지 못하는 ‘단일 모델 근시증(single‑model myopia)’에 빠진다. 반면 휴리스틱 에이전트는 LLM·VLM이 도구(캡셔닝, 재작성, 검색 등)를 순차적으로 호출하도록 설계했지만, 각 호출을 지역적인 그리디 판단에 의존해 전역 최적성을 보장하지 못하고, 불필요한 중복 호출과 논리적 비효율을 초래한다.
OSCAR는 이러한 문제를 ‘전역 최적화 관점’으로 전환한다. 논문은 합성 이미지 검색을 ‘원자적 검색 선택 + 집합 연산’이라는 두 단계의 혼합정수계획(MIP) 문제로 모델링한다. 구체적으로, 각 원자적 검색은 (도구, 재작성된 쿼리, 극성(포함/제외), top‑k) 네 요소로 정의되며, 동일 도구·쿼리·극성을 공유하고 top‑k만 다른 ‘패밀리’로 묶는다. 이는 top‑k가 단조 증가함을 이용해 중복을 최소화한다는 점에서 계산 효율성을 확보한다.
첫 번째 MIP(Recall‑Oriented)는 양성 원자 검색 집합을 선택해 정답 이미지 집합 I⁺의 커버리지를 최대화하면서, 비정답 I⁻와의 교차를 최소화한다. 여기서 이진 변수 xᵣ은 해당 원자 검색의 선택 여부를 나타내고, 이미지 커버 변수 cᵢ와 도구 사용 변수 t_f를 도입해 도구 다양성 및 중복 제약을 명시한다. 두 번째 MIP(Precision‑Oriented)는 선택된 양성 결과에 음성 원자 검색을 집합 연산(합집합, 교집합, 차집합) 형태로 결합해 정밀도를 높인다. Boolean set operation을 명시적으로 최적화함으로써, 기존 휴리스틱 방식이 구현하기 어려운 ‘포함·제외’ 논리를 수학적으로 보장한다.
오프라인 단계에서 각 학습 샘플에 대해 최적 경로를 도출하고 이를 ‘골든 라이브러리’에 저장한다. 온라인 추론 시, 테스트 쿼리와 가장 유사한 라이브러리 엔트리를 인‑컨텍스트 예시로 제공함으로써 VLM 플래너가 최적에 근접한 도구 호출 순서를 한 번의 패스만에 재현한다. 이는 반복적인 LLM 호출을 크게 줄이고, 추론 시간과 비용을 크게 절감한다.
실험 결과는 세 개의 공개 벤치마크와 하나의 산업용 비공개 데이터셋에서 SOTA 단일 임베딩 모델 및 최신 휴리스틱 에이전트를 모두 능가함을 보여준다. 특히, 전체 학습 데이터의 10%만 사용해도 비슷한 수준의 성능을 유지한다는 점은 ‘플래닝 로직 자체가 일반화 가능함’을 의미한다. 이는 데이터에 의존적인 기억이 아니라, 문제 구조에 대한 최적화된 추론 전략을 학습했음을 시사한다.
전반적으로 OSCAR는 (1) 문제를 전역 최적화로 재정의, (2) MIP를 통한 정확한 도구 선택·조합, (3) 오프라인‑온라인 파이프라인으로 효율적인 지식 전이, (4) 집합 이론 기반의 명시적 포함·제외 로직 도입이라는 네 가지 핵심 혁신을 제시한다. 이러한 설계는 복합 멀티모달 검색뿐 아니라, 다른 도구 기반 에이전트 시스템에도 확장 가능성을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기