장애우선 AI 데이터셋 라벨링 말더듬 사람과 함께 만든 음성 주석 가이드라인
초록
**
본 연구는 말더듬을 겪는 사람(PWS)의 lived experience를 직접 설계 과정에 참여시켜, 기존의 정형화된 라벨링 방식이 갖는 한계를 극복하고 보다 신뢰성 있는 스터터드 스피치 주석 가이드라인을 공동 제작한다. 인터뷰·공동 설계·평가 3단계 워크숍을 통해 비언어적 신호와 주관적 인식을 반영한 라벨링 체계를 도출하고, 장애 경험의 동적·다양성을 데이터 해석에 반영해야 함을 강조한다.
**
상세 분석
**
이 논문은 AI 접근성 데이터셋에서 라벨 노이즈가 지속적으로 발생하는 근본 원인을 ‘데이터 제공자와 라벨러 사이의 경험 격차’로 규정한다. 특히 말더듬은 발화의 연속성, 길이, 강도 등 물리적 특성이 개인·맥락에 따라 크게 변동하고, 기존 라벨링 가이드라인은 이러한 변이를 “에러” 혹은 “비정상”으로 일괄 처리한다는 점을 비판한다. 연구진은 세 단계(형성 연구, 공동 설계, 평가) 워크숍을 통해 PWS와 언어병리학자(SLP)의 ‘구현된 지식(embodied knowledge)’을 라벨링 규칙에 체계화한다.
핵심 기술적 기여는 다음과 같다. 첫째, 라벨링 항목에 ‘비언어적 신호(호흡 변화, 미세한 멈춤)’를 명시적으로 포함시켜, 자동 음성인식(ASR) 모델이 학습 단계에서 이러한 신호를 무시하지 않도록 설계한다. 둘째, 라벨링 프로세스 자체를 ‘다중 해석 가능성(multiplicity)’을 허용하도록 구조화한다. 예를 들어, 동일 발화에 대해 “연장(prolongation)”, “블록(block)”, “플루( filler)” 등 복수 라벨을 동시에 부여하고, 라벨러 간 합의율을 절대값이 아닌 ‘주관적 일관성(consistency)’ 지표로 평가한다. 셋째, 라벨러 교육 단계에서 PWS가 직접 제공한 사례와 메타코멘트를 활용해, 라벨러가 ‘청자 중심’이 아닌 ‘발화자 중심’ 시각을 습득하도록 한다.
실험 결과, 기존 Sep‑28k 데이터셋에서 보고된 0.11~0.39 수준의 Cohen’s κ가 공동 설계 가이드라인 적용 후 평균 0.58로 상승했으며, 라벨러가 비언어적 신호를 인식하고 기록하는 비율이 73%에서 91%로 크게 증가했다. 이는 라벨링 정확도 향상뿐 아니라, 데이터셋이 실제 PWS의 커뮤니케이션 전략을 반영하게 됨을 의미한다.
또한 논문은 라벨링의 ‘정적 라벨’이 장애 경험의 ‘동적·맥락적 특성’을 포착하지 못한다는 구조적 한계를 지적한다. 따라서 향후 AI 파이프라인 전반에 걸쳐 ‘라벨링 단계에서의 공동 설계(co‑design)’와 ‘라벨링 결과의 다중 해석 가능성’이 필수적이며, 이는 시각·청각·언어 등 다양한 접근성 데이터셋에 일반화될 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기