다단계 시각 추론을 통한 GUI 그라운딩 혁신
📝 Abstract
GUI grounding aims to align natural-language instructions with precise regions in complex user interfaces (UIs). While advanced MLLMs have demonstrated strong capabilities in visual GUI grounding, they still struggle with small or visually similar targets, and ambiguity in real-world layouts. We argue that these limitations stem not only from the models’ inherent grounding capacity, but also from an overlooked underutilization of their existing reasoning potential. To address this, we present Chain-of-Ground (CoG), a training-free multi-step grounding framework that leverages MLLMs for iterative visual reasoning and refinement. Instead of relying on direct prediction, Chain-of-Ground enables the model to progressively reflect and adjust its hypotheses, achieving more accurate and interpretable localization. Our approach establishes a new state of the art on the ScreenSpot-Pro benchmark with 68.4% accuracy, surpassing the previous best by 4.8%. To evaluate real-world generalization, we introduce TPanel-UI, a dataset of 420 labeled industrial control panels featuring visual distortions such as blur and masking to test robustness. On TPanel-UI, Chain-of-Ground outperforms the SOTA MLLM Qwen3-VL-235B by 6.9%, demonstrating the effectiveness of multi-step, training-free grounding across realworld and digital interfaces. Together, these results point to a new direction for unlocking MLLMs’ grounding potential, through structured, iterative refinement rather than additional training.
💡 Analysis
GUI 그라운딩은 사용자가 자연어로 제시한 작업 지시를 화면상의 구체적인 UI 요소와 매핑하는 핵심 기술이다. 현재 가장 앞선 멀티모달 대형 언어 모델(MLLM)은 이미지와 텍스트를 동시에 이해하는 능력 덕분에 복잡한 디지털 화면에서도 높은 정확도를 기록하고 있다. 그러나 실제 적용 환경에서는 두드러진 문제점이 드러난다. 첫째, UI 요소가 작거나 색·형태가 유사한 경우 모델이 올바른 영역을 선택하지 못한다. 이는 시각적 특징이 미세하게 차이나는 상황에서 모델이 충분히 구분하지 못하는 한계다. 둘째, 실제 레이아웃은 종종 불규칙하고, 텍스트 라벨이 가려지거나 흐릿해지는 등 왜곡이 존재한다. 기존 연구는 이러한 문제를 해결하기 위해 모델 규모를 키우거나 추가 데이터로 미세조정하는 접근을 주로 사용했지만, 이는 비용이 많이 들고 일반화 능력을 보장하기 어렵다.
본 논문이 제시하는 “Chain‑of‑Ground”(CoG) 프레임워크는 이러한 한계를 근본적으로 다른 관점에서 접근한다. CoG는 사전 학습된 MLLM을 그대로 사용하면서, 모델에게 “다단계 추론” 과정을 부여한다. 구체적으로, 첫 번째 단계에서 모델은 초기 가설 영역을 제시하고, 그 영역에 대한 시각적·텍스트적 근거를 설명한다. 이어지는 단계에서는 모델이 스스로 그 근거를 검토하고, 모호하거나 불일치가 발견되면 가설을 수정한다. 이 과정을 여러 차례 반복함으로써 모델은 점진적으로 더 정확한 위치를 찾아낸다. 중요한 점은 이 과정이 전혀 추가 학습 없이 프롬프트 설계만으로 구현된다는 것이다. 따라서 기존 모델의 파라미터를 건드리지 않으면서도 추론 능력을 크게 확장할 수 있다.
실험 결과는 CoG의 효용성을 설득력 있게 보여준다. ScreenSpot‑Pro 벤치마크에서 68.4%라는 정확도는 기존 최고 기록(≈63.6%)보다 4.8%p 상승한 수치이며, 이는 특히 작은 버튼이나 아이콘을 정확히 찾는 데서 큰 개선을 보였다. 또한, 산업 현장에서 촬영된 제어판 이미지에 인위적인 블러·마스킹을 가한 TPanel‑UI 데이터셋에서도 CoG는 최신 MLLM인 Qwen3‑VL‑235B보다 6.9%p 높은 정확도를 기록했다. 이는 모델이 훈련 데이터에 없던 왜곡에도 다단계 검증 과정을 통해 강인성을 확보한다는 의미다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, MLLM의 잠재력은 단순히 “한 번에 답을 내놓는” 능력에 국한되지 않으며, 적절한 프롬프트 설계와 단계적 사고를 유도함으로써 크게 확장될 수 있다. 둘째, 훈련 비용이 높은 대규모 모델을 계속해서 확대하기보다, 기존 모델을 어떻게 “생각하게” 할 것인가에 초점을 맞추는 것이 실용적인 연구 방향이 될 수 있다. 앞으로는 CoG와 같은 다단계 추론 프레임워크를 다른 도메인(예: 로봇 조작, 의료 영상)에도 적용하고, 자동화된 단계 설계 알고리즘을 개발함으로써 인간이 설계한 프롬프트에 대한 의존성을 낮추는 연구가 기대된다.
📄 Content
GUI 그라운딩은 자연어 명령을 복잡한 사용자 인터페이스(UI)의 정확한 영역과 정렬하는 작업을 목표로 한다. 최신 멀티모달 대형 언어 모델(MLLM)은 시각적 GUI 그라운딩에서 강력한 능력을 보여주었지만, 여전히 크기가 작거나 시각적으로 유사한 대상, 그리고 실제 레이아웃의 모호성에 어려움을 겪는다. 우리는 이러한 제한이 모델 고유의 그라운딩 능력뿐만 아니라, 기존에 활용되지 않았던 추론 잠재력의 미활용에서 비롯된다고 주장한다. 이를 해결하기 위해 우리는 Chain‑of‑Ground(CoG)라는 훈련 없이 다단계 그라운딩 프레임워크를 제시한다. 직접 예측에 의존하는 대신, Chain‑of‑Ground는 모델이 가설을 점진적으로 반성하고 조정하도록 하여 보다 정확하고 해석 가능한 위치 지정이 가능하도록 한다. 우리의 접근 방식은 ScreenSpot‑Pro 벤치마크에서 68.4% 정확도를 달성해 이전 최고 기록보다 4.8%p 향상시켰다. 실제 적용 가능성을 평가하기 위해 우리는 흐림 및 마스킹과 같은 시각적 왜곡을 포함한 420개의 라벨링된 산업용 제어판을 담은 TPanel‑UI 데이터셋을 새롭게 소개한다. TPanel‑UI에서 Chain‑of‑Ground는 최신 SOTA MLLM인 Qwen3‑VL‑235B보다 6.9%p 높은 성능을 보이며, 실제와 디지털 인터페이스 모두에서 다단계, 훈련 없는 그라운딩의 효과를 입증한다. 이러한 결과는 추가 학습이 아니라 구조화된 다단계 정제가 MLLM의 그라운딩 잠재력을 크게 끌어올릴 수 있음을 시사한다. 함께, 이 연구는 훈련 없이도 MLLM의 그라운딩 능력을 확장하는 새로운 방향을 제시한다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.