멀티도메인 일반성 평가를 위한 MultiNet v1.0 벤치마크
초록
본 논문은 시각‑언어‑행동 모델(VLM·VLA)의 실제 일반성을 측정하기 위해 여섯 가지 핵심 능력(시각적 정합, 공간 추론, 도구 사용, 물리적 상식, 다중 에이전트 협업, 연속 로봇 제어)을 포괄하는 통합 벤치마크 MultiNet v1.0을 제안한다. GPT‑5, π0, Magma 세 모델을 평가한 결과, 모든 모델이 훈련 도메인에서는 우수하지만 미지의 도메인·모달리티 전이에서는 성능 급락, 출력 형식 불안정, 지식 손실 등의 심각한 결함을 보인다.
상세 분석
MultiNet v1.0은 기존에 파편화된 평가 환경을 하나의 프레임워크로 통합함으로써, “일반 인공지능”이라는 목표에 대한 실질적인 진단 도구를 제공한다. 특히 시각적 정합(ODINW), 3D 공간 질문(SQA3D), 물리적 상식(PIQA), 로봇 연속 제어(Open‑X Embodiment), 다중 에이전트 협업(Overcooked‑AI), 함수 호출(BFCL) 등 서로 다른 입력·출력 포맷을 요구하는 6개 서브베이스를 포함한다는 점이 주목할 만하다.
모델 평가 방식은 전부 zero‑shot 설정이며, 각 서브베이스마다 정확도(Exact Match Rate), 연속 제어에서는 평균 제곱 오차, 함수 호출에서는 성공적인 API 호출 비율 등 도메인 특화 메트릭을 사용한다. 이와 동시에 “출력 형식 안정성”이라는 새로운 차원을 도입해, 모델이 요구된 포맷(텍스트, 연속 액션, 이산 액션, 옵션 선택 등)과 일치하지 않을 경우를 별도 페널티로 측정한다.
실험 결과는 세 모델 모두 훈련 분포 내에서는 경쟁력 있는 성능을 보이지만, 도메인 전이 시 급격히 성능이 하락한다는 공통된 패턴을 드러낸다. π0는 로봇 제어에 특화된 흐름 매칭 구조가 언어 생성 능력을 완전히 상실하게 만들었으며, Magma는 멀티태스크 학습 과정에서 출력 모달리티 혼동(예: 이미지 입력에 텍스트가 아닌 연속 액션을 반환) 현상이 빈번했다. GPT‑5는 가장 범용적인 모델임에도 불구하고, 다중 에이전트 협업과 3D 공간 질문, 복합 함수 호출 등 복합적인 추론·행동 요구가 결합된 상황에서 오류율이 크게 증가했다.
이러한 실패는 크게 세 가지 원인으로 해석된다. 첫째, 모달리티 정렬 부족으로, 시각·언어·행동 사이의 내부 표현이 일관되지 않아 입력‑출력 매핑이 깨진다. 둘째, 출력 포맷 불안정성으로, 모델이 상황에 맞는 액션 토큰화 방식을 스스로 선택하지 못하고, 텍스트와 액션을 혼용한다. 셋째, 도메인 전이 취약성으로, 훈련 데이터의 편향이 새로운 물리적 법칙·시각적 변형에 대한 일반화 능력을 억제한다.
논문은 또한 기존 벤치마크와 차별화된 표준화된 제출 파이프라인을 제공한다. 연구자는 코드, 데이터, 평가 SDK를 공개함으로써 재현성을 높이고, 향후 모델 개발 시 “멀티도메인 일반성”을 목표로 하는 설계 지표로 활용할 수 있게 했다.
전반적으로 MultiNet v1.0은 현재의 멀티모달·임베디드 모델이 아직 “진정한 일반 인공지능”에 도달하지 못했음을 명확히 보여준다. 향후 연구는 모달리티 간 교차 정규화, 동적 출력 포맷 선택 메커니즘, 그리고 보다 다양하고 현실적인 전이 학습 전략에 집중해야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기