접근성 격차를 드러낸 A11y‑CUA 데이터셋
초록
A11y‑CUA는 시각 장애·저시력 사용자와 일반 사용자가 60개의 일상 컴퓨터 작업을 수행한 40.4시간·158 325개의 이벤트를 포함한다. 분석을 통해 두 그룹의 상호작용 방식(마우스‑중심 vs 키보드‑중심)과 그룹 내 전략 다양성을 확인했으며, 최신 컴퓨터 사용 에이전트(CUA)를 기본, 키보드 전용, 확대 뷰 조건에서 평가해 접근성 격차를 정량화했다.
상세 분석
본 논문은 컴퓨터 사용 에이전트(CUA)의 접근성 격차를 정량적으로 규명하기 위해, 시각 장애·저시력 사용자(BLVU)와 시각 정상 사용자(SU)를 각각 8명씩 모집하여 60개의 일상 작업을 수행하게 한 후, 고밀도 멀티모달 로그를 수집하였다. 수집된 데이터는 화면 영상, 시스템 오디오, OS‑레벨 입력(키보드, 마우스, 스크롤), 창·요소 컨텍스트, 접근성 설정, 주기적인 UI Automation 스냅샷, 웹의 경우 DOM·접근성 트리, 메타데이터 등을 시간 동기화하여 저장한다. 이러한 풍부한 기록은 기존 웹‑중심·마우스‑중심 데이터셋과 달리, BLVU가 스크린리더와 확대기 등을 활용하는 실제 사용 흐름을 그대로 재현한다.
분석 결과, SU는 평균 1.8배 이상의 마우스 클릭을 사용하고, 작업당 평균 이벤트 수가 BLVU보다 30 % 적었다. 반면 BLVU는 키보드 명령과 스크린리더 피드백에 의존해, 순차 탐색(sequential navigation)과 바로 가기(shortcut) 전략을 혼용한다는 점이 드러났다. 특히 같은 작업이라도 BLVU 내에서 “탐색 → 선택 → 실행” 순서를 반복하거나, 바로 가기 키를 활용해 단계 수를 크게 줄이는 등 전략적 차이가 존재한다. 이러한 내부 변이성은 기존 연구가 제시한 ‘시각 장애 사용자는 느리다’는 일반화에 도전한다.
CUA 평가에서는 Anthropic의 Claude Sonnet 4.5와 Qwen3‑VL‑32B‑Instruct 두 모델을 선택하였다. 기본 시각‑기반 조건에서는 Sonnet이 78.33 %의 성공률을 보였지만, 키보드‑전용(41.67 %) 및 150 % 확대 뷰(28.33 %) 조건에서는 급격히 성능이 저하되었다. Qwen3은 기본에서도 20 %에 머물렀으며, AT 조건에서는 0 %의 성공률을 기록했다. 이는 현재 CUA가 시각 정보와 마우스 동작에 최적화돼 있어, 화면 리더가 제공하는 텍스트 기반 피드백이나 확대된 시야를 효과적으로 활용하지 못함을 의미한다. 논문은 이러한 격차를 ‘지각(perception)·인지(cognitive)·행동(action)’ 세 축으로 구분해, 에이전트가 화면 픽셀을 해석하는 단계에서부터 사용자 의도 파악, 실제 입력 실행까지 전 과정에 접근성 고려가 필요함을 강조한다.
데이터셋 공개와 함께 제공되는 오픈소스 컴퓨터 사용 레코더는 재현 가능한 트레이스와 시뮬레이션 환경을 제공한다. 이는 향후 CUA가 스크린리더 명령을 직접 해석하거나, 확대된 UI를 인식하도록 학습시키는 연구에 핵심 인프라가 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기