Optimus 3 듀얼 라우터 MoE 기반 시스템1·2 통합 에이전트

Optimus 3 듀얼 라우터 MoE 기반 시스템1·2 통합 에이전트
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Optimus-3은 Minecraft와 같은 시각적·동적 환경에서 시스템1(빠른 반사)과 시스템2(심층 추론)를 동시에 구동하도록 설계된 일반화 가능한 에이전트이다. 지식 강화 자동 데이터 생성 파이프라인으로 시스템2 추론 트레이스를 대량 확보하고, 작업 라우터와 레이어 라우터를 결합한 듀얼‑라우터 MoE 구조로 시스템1·2의 계산 요구를 분리·조정한다. 또한 프로세스‑결과 공동 감독을 구현한 Dual‑Granularity Reasoning‑Aware Policy Optimization(DGRPO)으로 사고 과정에 대한 밀집 보상을 제공한다. 실험 결과, 계획·캡션·임베디드 QA·그라운딩·리플렉션 등 시스템2 작업에서 21%~76% 향상을, 장기 행동에서는 3% 향상을 달성했으며, 개방형 과제 성공률은 60%에 이른다.

상세 분석

Optimus-3 논문은 인간의 이중 처리 이론(Dual‑Process Theory)을 에이전트 설계에 직접 적용한다는 점에서 학술적 의의가 크다. 먼저 데이터 측면에서 저자들은 “Knowledge‑Enhanced Automated Data Generation Pipeline”을 제안한다. 기존의 일반 목적 MLLM을 그대로 사용하면 Minecraft 고유의 제작 레시피나 물리 규칙을 반영하지 못해 허위 계획이 빈번히 발생한다. 이를 해결하기 위해 도메인 지식 베이스(레시피 그래프, 물리 법칙)를 외부 검증기로 활용하고, 생성된 추론 텍스트에 지식 제약을 강제한다. 결과적으로 시스템2의 사고 흐름(Planning, Grounding, Reflection 등)이 실제 게임 메커니즘과 일치하도록 정제된 “OptimusM⁴” 데이터셋을 구축한다.

두 번째 핵심 기여는 “Dual‑Router Aligned MoE Architecture”이다. 전통적인 MoE는 전문가를 하나의 라우터로만 선택해 전체 네트워크 깊이를 고정한다. Optimus-3은 수평적 ‘Task Router’와 수직적 ‘Layer Router’를 동시에 도입한다. Task Router는 입력을 작업별 전문가와 공유 지식 전문가에 매핑해 파라미터 간 교차 간섭을 최소화한다. Layer Router는 현재 입력이 시스템1(고주파 액션)인지 시스템2(저주파 추론)인지 판단해, 시스템1에 대해서는 중간 레이어를 스킵해 ‘Fast Path’를, 시스템2에 대해서는 전체 레이어를 활성화해 ‘Deep Path’를 제공한다. 이 설계는 실시간 액션 요구와 복합 추론 요구를 동시에 만족시키면서도 GPU 메모리와 연산량을 효율적으로 관리한다. 라우팅 결정은 한 번의 전방 패스 전 사전 계산되므로 런타임 오버헤드가 거의 없다.

세 번째 기여는 DGRPO(Dual‑Granularity Reasoning‑Aware Policy Optimization)이다. 기존 강화학습(RL)은 최종 성공/실패 보상만 제공해 중간 사고 과정의 품질을 검증하지 못한다. DGRPO는 ‘Process‑Outcome Co‑Supervision’이라는 새로운 학습 패러다임을 도입한다. 구체적으로 두 종류의 밀집 보상을 설계한다. (1) Dependency‑Aware Synthesis Reward는 도메인 지식 그래프를 활용해 추론 단계 간 논리적 종속성을 검증한다. 예를 들어, ‘다이아몬드 채굴 → 다이아몬드 검 제작’ 순서가 어긋나면 패널티를 부여한다. (2) Hallucination‑Aware Consistency Reward는 시각적 근거와 일치하지 않는 엔티티(예: 존재하지 않는 아이템)를 생성했을 때 벌점을 부여한다. 이러한 보상은 에이전트가 “생각하고 행동한다(think‑before‑act)”는 습관을 학습하도록 유도한다.

실험에서는 Optimus‑3를 기존 SOTA Minecraft 에이전트, GPT‑4o, Qwen2.5‑VL 등과 비교한다. Planning, Captioning, Embodied QA, Grounding, Reflection 등 시스템2 전용 벤치마크에서 각각 21 %·66 %·76 %·3.4배·18 %의 절대적 향상을 기록했으며, 장기 행동(Long‑Horizon Action)에서는 3 % 상승을 보였다. 특히 개방형 과제(Open‑Ended Tasks)에서는 60 %의 성공률을 달성해, 기존 에이전트가 거의 실패하던 영역을 크게 확장했다. 이러한 결과는 듀얼‑라우터 MoE와 DGRPO가 시스템1·2 간의 계산·학습 갈등을 효과적으로 해소하고, 사고 과정에 대한 정밀한 감독을 제공함을 입증한다.

전반적으로 Optimus‑3은 데이터 생성, 모델 아키텍처, 학습 알고리즘을 통합적으로 재설계함으로써, 시각‑언어‑행동이 복합적으로 얽힌 오픈 월드 환경에서 인간 수준의 다중 인지 능력을 구현한 최초의 일반화 가능한 에이전트라고 평가할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기