OmniFysics 물리 지능을 위한 전천후 멀티모달 모델과 데이터 엔진
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
OmniFysics는 이미지·음성·비디오·텍스트를 모두 이해하고 생성할 수 있는 경량 멀티모달 모델이다. 물리적 속성을 명시적으로 학습시키기 위해 두 가지 데이터 엔진(FysicsAny, FysicsOmniCap)을 구축해 4.7 M 물리‑정합 인스트럭션‑이미지 쌍과 872 K 물리‑정합 비디오‑인스트럭션 쌍을 자동 생성한다. 물리‑법 기반 검증·재작성, 계층적 속성 검색, 오디오‑비주얼 일관성 필터링을 결합해 물리 지능을 정량화하는 FysicsEval 벤치마크를 제시하고, 기존 멀티모달 벤치마크와 물리‑특화 평가 모두에서 경쟁력 있는 성능을 기록한다.
상세 분석
OmniFysics는 기존 대형 멀티모달 LLM이 “물리적 흐릿함”에 빠지는 문제를 근본적으로 해결하고자 설계되었다. 핵심은 물리‑정합 데이터 엔진이다. 첫 번째 엔진인 FysicsAny는 5단계 파이프라인(하이브리드 샘플링 → 시각‑언어 매핑 → 계층적 속성 검색 → 물리‑법 검증 → 캡션 재작성)을 통해 정적인 물체의 물리적 속성을 자동 라벨링한다. 여기서 계층적 검색은 사전 구축된 프로토타입 데이터베이스와 Qwen‑3 임베딩을 이용해 시각적 객체와 가장 유사한 물리 속성을 매칭하고, 물리‑법(예: 탄성계수 ∈
댓글 및 학술 토론
Loading comments...
의견 남기기