ARCADE: 증강현실 기반 컴퓨터 비전 모델 평가 혁신
초록
본 논문은 기존 정량 메트릭이 실제 적용 환경을 충분히 반영하지 못한다는 문제를 지적하고, 증강현실(AR)을 활용한 평가 플랫폼 ARCADE를 제안한다. ARCADE는 모듈형 아키텍처로 데이터 캡처, 플러그인형 추론, 인터랙티브 AR 과제, 시각화 도구를 통합해 정량 평가와 인간 지각 기반 평가를 동시에 수행한다. 15명의 연구자를 대상으로 한 사용자 연구와 깊이·조명 추정 두 사례 연구를 통해 전통 메트릭이 놓치는 인지적 결함을 발견하고, 시스템의 사용성·실시간 성능을 검증한다.
상세 분석
ARCADE는 기존 CV 평가 파이프라인이 안고 있는 “프로토콜 불일치”, “GT 노이즈”, “메트릭‑지각 격차” 세 가지 핵심 문제를 구조적으로 해결한다. 첫째, 데이터 캡처와 전처리 과정을 표준화된 클라이언트(모바일·데스크톱 모두 지원)로 통합해 연구자가 직접 파이프라인을 재구성할 필요 없이 동일한 데이터셋을 재현 가능하게 만든다. 둘째, 모델 추론을 REST·Docker 인터페이스로 추상화함으로써 다양한 프레임워크와 하드웨어에 대한 플러그인형 연동을 가능하게 하며, 실시간 스트리밍(640×480에서 평균 5.2 ms, 1920×1080에서 20 ms)과 낮은 인터랙션 지연(7.5–18 ms)을 제공한다. 셋째, AR 과제(가상 객체 배치, occlusion 검사, 포인트 클라우드 시각화 등)를 통해 사용자는 모델 출력의 기하학적·조명적 일관성을 직접 체험한다.
실험 결과, 깊이 추정 모델인 ZoeDepth와 DepthAnything 시리즈는 NYU Depth V2 기준 RMSE·AbsRel·δ₁ 등에서 유사한 점수를 보였음에도, AR 환경에서 가상 물체가 바닥에 정확히 고정되지 않거나 깊이 경계가 부자연스럽게 끊기는 현상이 드러났다. 조명 추정에서는 LPIPS와 같은 학습 기반 지각 메트릭이 낮아도, AR 씬에서의 반사광·그림자 재현이 부자연스러워 사용자가 즉시 오류를 감지했다. 사용자 연구에서는 참여자 15명 중 93 %가 ARCADE가 “실제 적용 가능성 판단”에 유용하다고 평가했으며, 엔지니어링 비용 감소 점수는 평균 4.33/5를 기록했다.
이러한 결과는 정량 메트릭만으로는 모델의 실제 사용 가치를 완전히 평가할 수 없으며, AR 기반 인터랙티브 평가가 모델 선택·디버깅 단계에서 필수적인 보완 수단이 될 수 있음을 시사한다. 또한, ARCADE의 오픈소스 구현과 2,000여 프레임의 데이터셋 공개는 커뮤니티 차원의 재현성 확보와 지속적인 벤치마크 확장을 가능하게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기