아이슬란드 의회 연설 자동 전사 시스템 평가와 편집 효율 분석

이 논문은 아이슬란드 의회(Althingi)에서 사용되는 자동 음성 인식(ASR) 시스템을 구축·평가하고, 자동 전사본을 인간 편집자가 수정하는 데 소요되는 시간과 편집 효율을 기존 수동 전사와 비교한다. 239개의 연설(총 11시간 33분)을 대상으로 단어 편집 거리(WED), 단어당 편집 시간(ET/W), 실시간 계수(RTF)를 측정했으며, WED가 12.6% 이하일 때 자동 전사가 수동 전사와 동등한 편집 속도를 보인다는 결론을 도출했다.

저자: Judy Y. Fong, Michal Borsky, Inga R. Helgadottir

이 논문은 아이슬란드 의회(Althingi)의 연설을 자동으로 전사하는 시스템을 설계·구현하고, 실제 업무 환경에서 그 성능과 편집 효율을 정량적으로 평가한다. 기존 수동 전사 과정은 두 단계(초기 전사 → 편집)로 이루어지며, 초기 전사는 외부 전사 서비스가 담당하고, 편집자는 텍스트를 최종 공개용으로 다듬는다. 연구팀은 이 초기 전사 단계를 자동 음성 인식(ASR) 시스템으로 대체하고, 자동 전사본을 인간 편집자가 수정하는 과정을 측정·비교하였다. ASR 시스템은 Kaldi 기반의 심층 신경망 모델을 사용한다. 7층 TDNN과 3층 LSTM을 결합한 구조에 40차원 MFCC와 100차원 i‑vector를 입력으로 하여, 1500시간 분량의 의회 연설 데이터를 학습시켰다. 언어 모델은 KENLM으로 훈련한 5‑gram 모델(55M 토큰)과 프루닝된 3‑gram 모델을 병행 적용했으며, 사전은 약 20만어로 확장하였다. 초기 테스트 셋에서 WER은 9.63%였으나, 실제 운영에서는 구두점 복원, 대문자 처리, 약어 정규화 등 후처리 단계가 필요했다. 이를 위해 OpenGrm Thrax를 이용해 형식화 규칙을 구현하고, Punctuator(양방향 RNN + attention) 모델로 마침표·물음표·콜론을 복원했으며, 쉼표는 규칙이 불명확해 제외하였다. 평가에는 239개의 연설(총 11시간 33분)이 사용되었다. 각 연설에 대해 (1) 자동 전사본(Text B)과 수동 전사본(Text A) 사이의 단어 편집 거리(WED)를 계산하고, (2) 편집자가 Text B를 최종 텍스트(Text D)로 수정하는 데 걸린 시간(t(d))을 기록했다. 주요 지표는 WED

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기