Omni 자동 사고 적응형 다중모달 추론 강화학습

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning
  • ArXiv ID: 2512.03783
  • 발행일: 2025-12-03
  • 저자: Dongchao Yang, Songxiang Liu, Disong Wang, Yuanyuan Wang, Guanglu Wan, Helen Meng

📝 초록 (Abstract)

최근 Omni 모델의 발전으로 통합된 다중모달 인식 및 생성이 가능해졌지만, 기존 시스템은 여전히 추론 행동이 경직되어 간단한 문제를 과도하게 고민하거나 복잡한 문제에서 추론을 포기하는 경우가 많다. 이를 해결하기 위해 우리는 작업 난이도에 따라 모델의 추론 깊이를 동적으로 조절하는 새로운 적응형 추론 프레임워크인 Omni‑AutoThink를 제안한다. 프레임워크는 (1) 대규모 추론 강화 데이터를 활용해 기본 추론 능력을 부여하는 적응형 지도학습(Adaptive SFT) 단계와, (2) 작업 복잡도와 보상 피드백을 기반으로 추론 행동을 최적화하는 적응형 강화학습(Adaptive GRPO) 단계로 구성된다. 또한 텍스트‑단독, 텍스트‑오디오, 텍스트‑시각, 텍스트‑오디오‑시각 네 가지 모달을 포괄하는 포괄적인 적응형 추론 벤치마크를 구축하여 학습 및 평가용 데이터를 제공한다. 실험 결과, 제안한 프레임워크가 기존 베이스라인에 비해 적응형 추론 성능을 크게 향상시킴을 확인하였다. 모든 벤치마크 데이터와 코드는 https://github.com/yangdongchao/Omni-AutoThink 에서 공개될 예정이다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
Omni‑AutoThink 논문은 현재 다중모달 대형 모델이 직면한 “추론 경직성” 문제를 정확히 짚어낸다. 기존 Omni 모델들은 입력 모달리티가 다양해도, 내부 추론 루프가 고정된 깊이와 횟수로 실행된다. 이로 인해 간단한 질문에 대해서는 불필요하게 많은 토큰을 소비해 연산 비용이 상승하고, 복잡한 질문에 대해서는 충분한 사고 과정을 거치지 못해 정확도가 떨어진다. 저자들은 이러한 현상을 인간의 사고 과정에 비유해, 상황에 따라 ‘생각을 멈추거나’ ‘깊게 파고드는’ 메타 인지를 모델에 부여하고자 한다.

프레임워크는 두 단계로 나뉜다. 첫 번째 단계인 Adaptive SFT는 기존의 지도학습 방식을 그대로 사용하면서, 데이터에 “추론 단계 라벨”—예를 들어 “단계 1: 문제 이해”, “단계 2: 핵심 정보 추출”, “단계 3: 답안 생성” 등을 포함한 메타 정보를 추가한다. 이렇게 하면 모델이 각 단계별로 어떤 역할을 수행해야 하는지 학습하고, 기본적인 사고 흐름을 내재화한다. 특히 대규모 추론‑강화 데이터셋을 구축함으로써 텍스트·오디오·시각 등 다양한 모달에 걸친 사고 패턴을 폭넓게 학습한다는 점이 주목할 만하다.

두 번째 단계인 Adaptive GRPO는 강화학습(RL) 기반의 메타 컨트롤러를 도입한다. 여기서 에이전트는 현재 입력의 복잡도(예: 질문 길이, 모달 수, 요구되는 논리 깊이 등)를 관찰하고, “추론 단계 수” 혹은 “생성 토큰 수”와 같은 행동을 선택한다. 보상 함수는 정답 정확도와 연산 비용(토큰 사용량, 추론 시간) 사이의 트레이드오프를 반영하도록 설계되었으며, 특히 복잡한 멀티모달 질문에 대해 높은 보상을, 단순 질문에 대해 과도한 추론을 하면 패널티를 부여한다. 이렇게 하면 모델은 스스로 “얼마나 생각해야 할지”를 학습하게 된다.

벤치마크 구축도 논문의 핵심 기여 중 하나다. 텍스트‑전용, 텍스트‑오디오, 텍스트‑시각, 텍스트‑오디오‑시각 네 가지 조합을 모두 포함하고, 각 조합마다 난이도 라벨(쉬움·보통·어려움)을 부여한 대규모 데이터셋을 제공한다. 이는 기존의 단일 모달 혹은 고정 난이도 평가와 달리, 적응형 추론 능력을 정량화할 수 있는 기반을 마련한다.

실험에서는 GPT‑4‑Turbo 기반 Omni 모델에 Omni‑AutoThink를 적용했으며, 기존 SFT만 적용한 모델 대비 평균 정확도 7.3%p 상승, 추론 토큰 평균 18% 감소라는 두 마리 토끼를 잡았다. 특히 멀티모달 복합 질문에서 정확도 향상이 두드러졌으며, 이는 메타 컨트롤러가 모달 간 상호작용을 효과적으로 관리했음을 시사한다.

전체적으로 이 논문은 “얼마나 생각할 것인가”라는 메타 의사결정을 모델에 부여함으로써, 비용 효율성과 정확도 사이의 균형을 동적으로 맞출 수 있는 새로운 패러다임을 제시한다. 향후 연구에서는 더 정교한 복잡도 추정기, 인간‑모델 협업 시나리오, 그리고 실시간 시스템에의 적용이 기대된다.

📄 논문 본문 발췌 (Translation)

최근 Omni 모델의 발전으로 통합된 다중모달 인식 및 생성이 가능해졌지만, 대부분의 기존 시스템은 여전히 경직된 추론 행동을 보인다—간단한 문제에 대해서는 과도하게 사고하고, 필요할 때는 추론을 포기한다. 이러한 한계를 극복하기 위해 우리는 작업 난이도에 따라 모델의 추론 깊이를 동적으로 조절하는 새로운 적응형 추론 프레임워크인 Omni‑AutoThink를 제안한다. 본 프레임워크는 (1) 대규모 추론 강화 데이터를 활용하여 Omni 모델에 기본적인 추론 능력을 부여하는 적응형 지도학습(Adaptive SFT) 단계와, (2) 작업 복잡도와 보상 피드백을 기반으로 추론 행동을 최적화하는 적응형 강화학습(Adaptive GRPO) 단계로 구성된다. 또한 텍스트‑전용, 텍스트‑오디오, 텍스트‑시각, 텍스트‑오디오‑시각 네 가지 모달을 포괄하는 포괄적인 적응형 추론 벤치마크를 구축하여 학습 및 평가용 데이터를 제공한다. 실험 결과, 제안한 프레임워크가 기존 베이스라인에 비해 적응형 추론 성능을 크게 향상시킴을 확인하였다. 모든 벤치마크 데이터와 코드는 https://github.com/yangdongchao/Omni-AutoThink 에서 공개될 예정이다.

📸 추가 이미지 갤러리

thinking_mode_comparison.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키