진화로 해결! 영상 분할의 새로운 지평

읽는 시간: 9 분
...

📝 원문 정보

- Title: Evolving, Not Training Zero-Shot Reasoning Segmentation via Evolutionary Prompting
- ArXiv ID: 2512.24702
- 발행일: 2025-12-31
- 저자: Kai Ye, Xiaotong You, Jianghang Lin, Jiayi Ji, Pingyang Dai, Liujuan Cao

📝 초록

이 논문에서는 추론 시점의 진화적 탐색 문제로 재구성된 사유 기반 분할 작업을 제안한다. 이를 통해 다양한 가설 집단을 유지하고, 진화 알고리즘을 활용해 최적 솔루션에 대한 강건한 근사치를 구현한다.

💡 논문 해설

1. **새로운 접근 방식**: 이 논문은 사유 기반 분할 작업을 추론 시점의 진화적 탐색 문제로 재정의한다. 이를 통해 다양한 가설 집단을 유지하고, 진화 알고리즘을 활용해 최적 솔루션에 대한 강건한 근사치를 구현한다. - 비유: 이 작업은 여러 경로를 동시에 탐색하는 여행자와 같다. 각 경로는 서로 다른 해답을 제시하며, 가장 좋은 경로를 찾아내려면 다양한 선택지를 평가해야 한다.
  1. 진화 알고리즘의 활용: 사전 훈련된 모델의 판별 능력을 활용해 시각 분야에서 진화적인 탐색을 수행한다.

    • 비유: 이는 여러 후보 중에서 가장 적합한 옷을 골라 입는 것과 같다. 각 후보 옷은 다른 상황에 최적화되어 있으며, 최선의 선택을 위해 다양한 조건을 고려해야 한다.
  2. 강건성 향상: 기존 방법보다 강건성을 높여 복잡한 씬에서도 안정적인 분할 결과를 얻는다.

    • 비유: 이 작업은 여러 날씨 조건에서 잘 작동하는 우산을 만드는 것과 같다. 각각의 날씨 조건에 대해 가장 적합한 우산을 선택하고, 다양한 상황에서도 효과적으로 작용하도록 설계한다.

📄 논문 발췌 (ArXiv Source)

# 소개

사유 기반 분할은 복잡한 자연어 쿼리에 기반하여 픽셀 수준의 이진 마스크를 생성하는 것을 목표로 한다. 이 작업은 모델이 논리적 추론을 통해 텍스트 지시문을 해석해야 하는데, 전통적인 의미 또는 인스턴스 분할 작업과 달리 사전 정의된 범주 레이블에 의존하지 않는다. 사유 기반 분할은 더 복잡하고 문맥에 따라 변하는 쿼리를 처리하거나 추론을 필요로 하는 지시문(예: “사람이 낚시를 위해 사용하는 무언가”)에 대응한다. 이 설정은 인텔리전트 어시스턴트와 로봇공학의 실용적 요구사항을 더 잘 반영하며, 동시에 모델에게 미세한 시각 인식 능력, 견고한 이미지-텍스트 연관성 능력, 그리고 폭넓은 도메인 지식과 함께 상식 및 논리 추론을 요구한다.

style="width:95.0%" />
기존 방법과의 핵심 차이점 및 성능 비교

다양한 추론 능력과 다중 모달 인식 능력을 갖춘 다중모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)을 활용하는 것은 이 작업의 주류 솔루션이 되었다.

현재 사유 기반 분할 방법은 크게 두 가지 학습 기반 패러다임으로 주도되고 있다: 감독된 세분화(Supervised Fine-Tuning, SFT)와 강화학습(Reinforcement Learning, RL). 그러나 이들 모두 훈련 비용과 경직된 추론 패턴에 대한 본질적인 한계를 가진다. 첫 번째 패러다임인 SFT 기반 방법은 MLLMs을 세분화 작업에 내부화시키려고 시도한다. 그러나 이러한 방식은 일반 추론 능력의 치명적인 잊어버림을 유발하여 분포 외 지시문에 대한 일반화 성능이 나쁘다. 두 번째 패러다임인 RL 기반 방법은 MLLM을 보상 신호를 통해 최적화하는 정책 네트워크로 취급한다. 그러나 이러한 모델들은 여전히 추론 시 고정된 정책을 실행하므로, 초기 단계에서 로컬 최적해에 빠질 경우 본질적으로 동적 역추적 또는 전역 검색을 수행할 수 없다.

SAM 3의 등장은 강력한 상호작용 분할 모델에 내재적인 의미 이해 능력을 부여하는 중요한 전환점이다. 이전 모델들은 점이나 사각형과 같은 기하학적 프롬프트에만 반응했지만, SAM 3는 간단한 명사구를 직접 이해하고 위치할 수 있다. 이러한 기술적 도약을 바탕으로 SAM 3 에이전트 등 새로운 방식의 훈련 없는 시각 에이전트가 급속히 등장했다. 이 패러다임은 매개변수 업데이트를 완전히 포기하고, 동결된 최신 MLLM을 계획에 사용하고 SAM 3를 실행하는 데 사용한다. 이렇게 함으로써 MLLM의 일반 추론 능력과 세계 지식이 보존되며 강한 제로샷 전달 능력을 부여한다.

그러나 SAM 3 에이전트가 나타내는 잠재력에도 불구하고, 그 추론 메커니즘은 여전히 직관적인 시도와 오류 전략에 갇혀 있다. 이 방식은 두 가지 중요한 견고성 결함을 지닌다. 첫째, SAM 3 에이전트의 정교화 단계는 MLLM의 직관에 크게 의존한다. 이러한 대화 기록을 기반으로 하는 점프 논리는 종종 무작위적이고 구조적이지 않으며, 모델은 색상과 위치 설명 간에 무질서하게 전환할 수 있다. 명확한 기울기나 최적화 방향이 부재하기 때문에 에이전트는 부분적으로 최적의 솔루션을 둘러싸고 진동하며 SAM 3의 최적 성능을 유발하는 프롬프트를 찾지 못한다. 둘째, SAM 3 에이전트에는 선택 메커니즘이 있지만 일반적으로 단일 추론 경로에서 생성된 후보 집합 내에서 필터링한다. 이는 초기 의미 이해 방향이 편차를 보이면 모든 후속 상호작용이 이러한 잘못된 의미 프레임 내에 제한되는 것을 의미하며, 시스템은 다양한 다형적 가설을 유지하고 비교할 수 있는 메커니즘이 부재하여 로컬 최적해에서 탈출하는 데 실패한다.

이러한 도전 과제를 해결하기 위해 우리는 EVOL-SAM3이라는 새로운 훈련 없는 프레임워크를 제안한다. 이는 사유 기반 분할 작업을 추론 시점의 진화적 탐색 문제로 재구성하는 것이다. SAM 3 에이전트와 달리, Evo-SAM3은 선형적인 직관적 점프에 의존하지 않고 동적으로 변화하는 가설 집단을 유지한다. 우리는 포괄적인 시각 진화 알고리즘을 설계하여 의미 변이 연산자를 통해 의미 공간에서 광범위한 지향 탐색을 수행하고, “텍스트 기반 추론"과 “박스 기반 위치"가 동일한 생태적 니치에서 경쟁하도록 하는 이질적인 경쟁 메커니즘을 도입한다. 가장 중요한 것은 MLLM의 우수한 판별 능력을 활용하여 단순 필터링 대신 토너먼트 선택 메커니즘을 사용하는 시각 분야를 구축하는 것이다. 이를 통해 Evo-SAM3은 모델 업데이트 없이 MLLM의 판별력으로 탐색을 주도하고, 최종적으로 SAM 3의 잠재력을 극대화하는 최적 프롬프트를 진화시킨다.

우리의 주요 기여는 다음과 같이 요약된다:

  • 우리는 사유 기반 분할 작업을 추론 시점의 진화적 탐색 문제로 처음으로 모델링한다. 다양한 가설 집단을 유지하고 진화 알고리즘을 사용해 체계적으로 탐색하면 최적 솔루션에 대한 강건한 근사를 구현할 수 있음을 보여준다.
  • 우리는 의미 변이, 이질적인 경쟁, 그리고 토너먼트 선택 메커니즘을 활용하는 특수 진화 메커니즘을 도입한다.
  • 벤치마크에서 제로샷 설정하에서 EVOL-SAM3은 단순히 기존의 훈련 없는 에이전트뿐만 아니라 STF 또는 RL을 통해 학습된 전문 모델에 대해서도 다양한 주요 지표에서 우수한 성능을 보여준다.

관련 연구

학습 기반 사유 분할: 현재 사유 분할 방법론은 크게 세 가지 패러다임으로 구분된다: 감독 세분화(SFT), 강화 학습(RL), 그리고 SFT+RL 하이브리드 전략. SFT 기반 방법은 일반적으로 작업을 시퀀스 생성 문제로 형식화한다. 대규모 분할 데이터셋에 대해 다중모달 대형 언어 모델을 엔드투엔드 세분화 학습으로 이를 특정 마스크 토큰이나 폴리곤 좌표를 출력하도록 학습시킨다. 그러나 이러한 패러다임은 상당한 한계가 있다. 픽셀 수준의 정합성을 위한 파라미터 업데이트는 종종 치명적인 잊어버림을 유발하여 MLLM의 본래 일반 추론 능력을 저하시키고, SFT 모델은 훈련 분포에 과적합되어 복잡한 분포 외 지시문에서 안정적으로 작동하지 못한다.

강화 학습 및 하이브리드 전략: 강화학습 기반 방법은 분할을 정책 결정 프로세스로 형식화하고 보상 신호를 통해 모델을 최적화한다. 그러나 기존의 RL 방법들은 종종 MLLM과 SAM 사이에 완전한 엔드투엔드 그래디언트 플로우를 달성하지 못하거나 수동으로 구성된 트래젝토리 데이터에 크게 의존한다. 이러한 블랙박스 최적화는 실행기의 최고 성능을 유발하지 못하는 부적합한 프롬프트를 자주 생성한다. 최근 연구들은 GRPO와 함께 문장, 박스 및 세그먼트 수준에서 보상을 획득하도록 체인 오브 씽크(CoT)와 마스크 생성을 동시에 최적화하는 하이브리드 방법을 시도하고 있다. 그럼에도 불구하고 이러한 구조적 발전에도 불구하고 모든 학습 기반 패러다임, SFT나 RL 또는 하이브리드 모두 공통된 병목 현상에 직면한다: 훈련 자원에 대한 과도한 의존. 이러한 모델을 개발하는 데는 대규모 계산 리소스와 엄청난 양의 주석 처리 데이터가 필요하며, 극히 높은 진입 장벽을 만든다. 또한 한 번 훈련이 완료되면 추론 정책은 고정되어 있어 추가적인 매개변수 업데이트 없이는 유연하게 자기 수정할 수 없다.

훈련 없는 시각 에이전트: 높은 학습 장벽에 대한 반응으로, 훈련 없는 패러다임이 SAM 3 에이전트 등으로 나타났다. 이 접근법은 동결된 MLLM을 계획자로 연결하고 SAM 3를 실행기로 사용하여 MLLM의 본래 일반화 능력을 유지한다. 그러나 현재 훈련 없는 에이전트는 직관적인 시도와 오류에 크게 의존하며, 그 추론 과정은 종종 선형적이며 구조적이지 않아 체계적인 최적화 목표가 부재하다. 만약 에이전트의 초기 의미 해석이 잘못되었다면 다른 가설을 전역적으로 탐색할 수 있는 메커니즘이 없기 때문에 복잡한 씬에서는 쉽게 불회복적인 실패를 겪는다. 이러한 한계점을 해결하기 위해 우리는 EVOL-SAM3을 제안한다. 이는 사유 기반 분할 작업을 추론 시점의 진화적 탐색 문제로 재구성하는 것이다. 선형 접근법과 달리, 우리의 프레임워크는 다양한 가설 집단을 유지하고 MLLMs의 판별력을 활용해 전역 최적화를 수행하여 매개변수 업데이트 없이 견고한 정합성을 구현한다.

style="width:100.0%" />
EVOL-SAM3의 전체 프레임워크입니다. 이 파이프라인은 정적 사유 기반 분할 작업을 동적인 진화 탐색 과정으로 변환하며, 세 가지 단계를 포함합니다: (1) 초기화: MLLM이 메타-제너레이터로 작용하여 초기 쿼리를 다양한 프롬프트 가설 집단으로 확장한다. (2) 진화적 추론 루프: 이 핵심 단계는 프롬프트를 반복적으로 정교하게 만드는 과정이다. 시각 분야에서 쌍대 경쟁을 사용하여 엘리트 개인을 선택하고 의미 변이를 통해 더 나은 프롬프트 후손을 생성한다. (3) 최종 재판: 이 메커니즘은 진화된 텍스트 기반 마스크와 지오메트릭 직관 기반 마스크 사이에서 무작위 스왑 전략을 사용하여 견고한 분할 결과를 보장하는 안전 장치이다.

방법

문제 정의

우리는 사유 기반 분할 작업을 다음과 같이 형식적으로 정의한다: 입력 이미지 $`I \in \mathbb{R}^{H \times W \times 3}`$과 자연어 쿼리 $`q`$가 주어졌을 때, $`q`$에 의해 설명되는 타겟과 최적의 의미적 정합성을 갖는 이진 마스크 $`M \in \{0, 1\}^{H \times W}`$를 생성하는 것이 목표이다. 전통적인 접근 방식은 완전 감독 세분화나 강화 학습을 사용하되, 일반적으로 매개변수화된 조건부 분포 $`P_\theta(M | I, q)`$를 학습한다. 그러나 이 패러다임은 추론 시 고정적이며 훈련 분포의 기억에 크게 의존한다.

본 연구에서는 이 작업을 추론 시점의 잠재 변수 최적화 문제로 재구성한다. 어떤 복잡한 쿼리 $`q`$에도 불구하고, 의미-기하학적 공간 $`\mathcal{Z}`$ 내에서 최적의 잠재 프롬프트 $`z^*`$가 존재한다는 가정을 한다. 이 최적 프롬프트가 강력하고 결정론적인 분할 실행기를 주도하면 최적의 솔루션이 생성된다. 이러한 전제 하에, 우리의 목표는 동결된 기초 모델 공간 내에서 $`z^*`$를 찾는 것이다:

MATH
\begin{equation}
    z^* = \mathop{\arg\max}_{z \in \mathcal{Z}} \mathcal{F}(M_z, q; \Psi_{\text{VLM}}) \quad \text{s.t.} \quad M_z = \Phi_{\text{SAM}}(I, z)
    \label{eq:optimization_objective}
\end{equation}
클릭하여 더 보기

이 정의에서, $`\Phi_{\text{SAM}}: \mathbb{R}^{H \times W \times 3} \times \mathcal{Z} \to \{0, 1\}^{H \times W}`$ 는 동결된 실행기(SAM 3)를 나타내며, 잠재 변수 $`z`$를 분할 마스크 $`M_z`$로 결정론적으로 매핑한다. $`\mathcal{F}`$는 동결된 시각-언어 모델 $`\Psi_{\text{VLM}}`$(Qwen2.5-VL을 통해 구현됨)에 의해 파라미터화된 적합도 함수를 나타내며, $`M_z`$와 원본 쿼리 $`q`$ 사이의 의미적 정합성을 양적으로 표현한다. 이 모델링의 핵심 장점은 분해: MLLM의 추론 능력을 복잡한 의미 공간 $`\mathcal{Z}`$를 탐색하는 데 활용하고, SAM 3의 견고한 기하학적 사전 지식을 픽셀 수준 생성에 유지함으로써 훈련 모델들의 치명적인 잊어버림 위험을 피한다.

이와 같은 최적화 문제는 두 가지 내재적인 수학적 도전 과제를 제기한다: 미분 불가능성과 참조 없는 평가. 첫째, 탐색 공간 $`\mathcal{Z}`$는 이산 자연어 토큰과 기하학적 좌표로 구성되며 $`\Phi_{\text{SAM}}`$은 블랙박스 함수이므로 $`\nabla_z \mathcal{F}`$는 접근 불가능하여 기울기 기반 최적화 방법을 사용할 수 없다. 두 번째, 추론 중 참조 마스크의 부재로 인해 $`\mathcal{F}`$를 정확히 계산할 수 없다.

이러한 도전 과제를 해결하기 위해 우리는 EVOL-SAM3 프레임워크를 제안한다. 이는 미분 불가능성을 피하는 진화 알고리즘(EA)을 사용하여 최적화 문제를 해결한다. 구체적으로, 우리는 세대 $`t`$에서 가설 집단 $`\mathcal{P}_t = \{z_1^{(t)}, \dots, z_N^{(t)}\}`$을 유지하고 MLLM에 의해 주도되는 의미 변이와 선택 연산자를 반복적으로 적용하여 $`z^*`$를 근사한다. 참조 마스크의 부재로 인한 문제는 MLLMs가 생성 작업보다 판별 작업에서 더 우수한 성능을 보이는 특성을 활용하여 해결된다. 우리는 시각 분야 메커니즘을 사용해 적합도 지형을 근사하며, 여기서 스칼라적 적합도 $`\mathcal{F}(z)`$는 후보 솔루션이 $`\Psi_{\text{VLM}}`$에 의해 심판되는 쌍대 토너먼트에서의 승률로 모델링된다. 이를 통해 정적인 사전 학습된 모델을 동적 시스템으로 변환하여 의도적인 탐색과 최적화를 수행할 수 있다.

프레임워크 개요

그림 2에 표시된 것처럼, EVOL-SAM3은 정적인 사유 기반 분할 작업을 훈련 없는 동적 진화적 탐색 과정으로 재구성한다. 이 프레임워크는 고수준의 의미 계획과 평가를 위해 동결된 MLLM을 활용하고, SAM 3을 픽셀 실행에 사용한다. 파이프라인은 인구 초기화(단계 1)로 시작되며, 여기서 MLLM은 메타-제너레이터로서 사용자의 단일 쿼리를 다양한 설명적 관점(예: 속성, 공간 관계)을 포함하는 프롬프트의 다양성을 확장한다. 그 다음 시스템은 핵심 진화 추론 루프(단계 2)에 진입한다. 각 세대에서 후보 프롬프트는 SAM 3을 통해 분할 마스크를 생성하고, 이들 마스크는 의미 게이트를 통해 일관성을 검토받고 $`\Psi_{\text{VLM}}`$에 의해 쌍대 토너먼트에서 평가된다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키