현실적인 다중모달 여행 계획 벤치마크 WorldTravel

현실적인 다중모달 여행 계획 벤치마크 WorldTravel
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

WorldTravel는 5개 유럽 도시의 실제 여행 시나리오 150개와 2,000여 개의 렌더링된 웹페이지를 결합한 다중모달 벤치마크이다. 각 시나리오는 평균 15개의 상호 의존적인 제약을 포함하며, 텍스트‑only 환경에서는 GPT‑5.2가 32.67%의 실행 가능성을 보였지만, 시각적 제약 추출이 요구되는 멀티모달 환경에서는 19.33%로 급락한다. 연구진은 인지‑행동 격차와 10개 제약을 초과할 때 발생하는 계획 지평선 한계를 주요 병목으로 규명한다.

상세 분석

WorldTravel 논문은 실제 여행 일정 수립에서 마주치는 “긴밀히 결합된 제약” 문제를 정량화하고, 이를 평가하기 위한 완전한 다중모달 환경을 설계한 점에서 큰 의의를 가진다. 첫째, 데이터 수집 단계에서 공식 웹사이트와 사용자 생성 콘텐츠를 모두 활용해 운영 시간, 계층형 가격, 예약 가능 슬롯 등 현실적인 제약 정보를 확보한 점은 기존 벤치마크가 주로 구조화된 JSON 형태의 입력에 의존하던 한계를 극복한다. 특히, 2,000여 개의 정적 HTML 페이지를 LLM이 생성하고 인간 검수를 거쳐 품질을 보증함으로써, 에이전트가 실제 웹 UI를 탐색하고 시각적 신호(예: ‘Sold Out’, 색상 구분)를 해석해야 하는 인지‑행동 격차(Perception‑Action Gap)를 의도적으로 도입했다.

둘째, 제약 taxonomy를 ‘Hard Constraints(시간적·논리적 필수)’와 ‘Soft Constraints(비용·선호도)’로 명확히 구분하고, 각 제약을 수학적 형태(


댓글 및 학술 토론

Loading comments...

의견 남기기