LVLM을 위한 실전 CAPTCHA 벤치마크 CAPTURE 소개와 평가

초록

본 논문은 대형 시각‑언어 모델(LVLM)의 CAPTCHA 해결 능력을 체계적으로 측정하기 위해 4대 유형·25개 세부 유형·31개 공급업체의 31,000여 개 이미지를 포함한 CAPTURE 벤치마크를 제안한다. LVLM 전용 라벨링 체계와 대규모 클래스 다양성을 제공하며, 기존 연구가 다루지 못한 실전 CAPTCHA 환경을 재현한다. 실험 결과 최신 LVLM들은 인간 수준의 정확도에 크게 못 미치며, 특히 왜곡·노이즈·다중 객체 인식이 결합된 복합형 CAPTCHA에서 성능 저하가 두드러진다. 논문은 데이터 구축 방법, 평가 프로토콜, 현재 모델의 한계와 향후 연구 방향을 상세히 논의한다.

상세 요약

CAPTURE는 LVLM의 시각‑언어 통합 능력을 종합적으로 검증하기 위해 설계된 최초의 전용 벤치마크이다. 먼저 4대 CAPTCHA 유형(텍스트 기반, 이미지 선택, 퍼즐 조합, 행동 기반)과 25개 세부 변형을 정의하고, 31개 상용 공급업체에서 실제 서비스 중인 CAPTCHA를 수집해 31,000여 개 샘플을 구축하였다. 각 샘플은 정답 텍스트, 좌표, 선택 옵션 등 LVLM이 직접 출력할 수 있는 형태의 라벨을 부여했으며, 라벨링 과정에서 인간 검증자를 활용해 높은 정밀도를 확보하였다. 데이터는 난이도, 왜곡 정도, 배경 복잡도 등 다차원 메트릭으로 메타데이터화되어, 모델 성능을 세부적으로 분석할 수 있다. 평가 프로토콜은 1) 정확도(정답 일치 비율), 2) OCR‑기반 텍스트 인식 점수, 3) 이미지 선택 정확도, 4) 시간 효율성 등 네 가지 핵심 지표를 포함한다. 실험에서는 GPT‑4V, LLaVA‑1.5, MiniGPT‑4 등 최신 LVLM 7종을 테스트했으며, 전반적으로 30% 이하의 정확도를 기록했다. 특히 왜곡이 심한 텍스트 CAPTCHA와 다중 객체를 요구하는 이미지 선택형에서 성능 격차가 크게 나타났으며, 이는 현재 LVLM이 고해상도 세부 정보와 복합 논리 추론을 동시에 수행하는 데 한계가 있음을 시사한다. 또한, 모델이 “인간‑유사” 답변을 생성하더라도 실제 정답과 일치하지 않는 경우가 빈번해, 기존 평가 방식이 과대평가될 위험이 있음을 지적한다. 논문은 데이터 다양성 확보, 라벨링 자동화, 멀티스텝 추론 능력 강화 등 향후 연구 과제를 제시한다.

초록

상세 요약

📜 논문 원문 (영문)