전체 텍스트 음성 인식 오류 교정을 위한 연속 교정 체인
초록
본 논문은 대형 언어 모델(LLM)을 활용해 자동 음성 인식(ASR) 결과의 전체 텍스트를 세그먼트별로 순차적으로 교정하는 “Chain of Correction”(CoC) 방식을 제안한다. 사전 인식된 원문과 전체 문맥을 프롬프트에 포함시켜 안정성·제어성·완전성·유창성을 동시에 개선하고, ChFT 데이터셋을 기반으로 7B 파라미터 모델을 미세조정하여 기존 베이스라인보다 오류율을 크게 낮추었다. 또한 교정 강도 조절을 위한 Threshold 설정, 초장문 적용, 핀인(pinyin) 가이드 활용 등 다양한 확장 실험을 수행하였다.
상세 분석
CoC는 기존의 “한 번에 전체 텍스트를 JSON 형태로 오류‑수정 쌍을 출력”하는 방식과 달리, 멀티턴 채팅 형식으로 각 세그먼트를 독립적으로 교정한다는 점에서 근본적인 설계 전환을 보여준다. 첫 번째 턴에서 전체 사전 인식 텍스트와 교정 지시문을 제공하고, 이후 사용자‑어시스턴트 교환을 통해 하나씩 세그먼트를 입력·출력한다. 이렇게 하면 모델이 매번 짧은 문맥(1~5문장)만을 집중해 처리하므로, 토큰 길이 제한에 얽매이지 않으며 Hallucination이나 과도한 재작성(over‑rephrasing) 위험을 크게 감소시킨다.
안정성 측면에서는 세그먼트 단위의 가이드가 “어디를 고쳐야 하는가”를 명시적으로 알려 주어, 모델이 무작위로 텍스트를 재생성하는 경우를 방지한다. 제어성은 교정 Threshold(0.20.5)를 도입해 교정 강도를 조절함으로써, 과도한 수정과 미흡한 수정을 균형 있게 관리한다. Threshold가 0.30.4일 때 가장 높은 ERR 감소율을 보였으며, 이는 실제 서비스 환경에서 자동화된 품질 관리에 유용한 파라미터 설정이다.
완전성은 사전 인식된 전체 텍스트를 지속적으로 컨텍스트에 포함함으로써, 오류 위치를 별도로 표시하지 않아도 모델이 전역 의미를 파악하고 누락된 오류를 탐지할 수 있게 한다. 특히 VAD에 의해 비정상적으로 분할된 세그먼트의 종결 부호 오류, 특수 기호(《》) 복원, 필러 단어 및 반복 제거 등 문장‑레벨 교정으로는 잡기 어려운 현상을 효과적으로 수정한다.
유창성은 “오류‑수정 쌍”을 직접 교체하는 대신, 세그먼트를 재생성하도록 설계함으로써 LLM의 다음 토큰 예측 능력을 최대한 활용한다. 결과적으로 문맥에 맞는 자연스러운 어휘 선택과 대소문자 복원, 코어퍼런스 해결 등이 이루어져 전체 텍스트의 가독성이 크게 향상된다.
실험에서는 내부 7B 파라미터 모델(Hunyuan‑7B‑Dense‑Pretrain‑256k‑V2)을 16개의 A100 GPU에서 약 1 epoch 정도 미세조정하였다. ChFT 데이터셋(41,651 기사)에서 Homogeneous, Hard, Up‑to‑date 세 가지 테스트 셋을 사용했으며, CoC는 기존 seg‑json 방식 대비 Mandarin ERR을 34.09%→44.25%까지, 전체 ERR을 7.03%→44.25%까지 감소시켰다. 특히 최신(2024‑07 이후) 데이터에서도 29.82% ERR 감소를 기록, 모델의 일반화 능력을 입증했다.
초장문(최대 80k 문자, 약 4시간 오디오) 실험에서도 토큰 길이 256k를 활용해 160k 토큰까지 메시지를 전송했으며, Mandarin ERR이 18.48% 감소하는 등 확장성도 검증되었다. 핀인(pinyin) 가이드를 사용한 변형에서는 성능이 약간 저하되었지만(예: Mandarin ERR 4.24% vs 4.06%) 여전히 베이스라인보다 우수했으며, 이는 음성‑텍스트 정합성을 강화하는 추가 정보로 활용 가능함을 시사한다.
한계점으로는 현재 중국어와 코드‑스위치 영어에 초점을 맞추었으며, 다국어 혹은 방언에 대한 적용 검증이 부족하다. 또한 세그먼트 분할 기준이 고정되어 있어, 동적 길이 조절이나 의미 기반 클러스터링이 추가되면 더욱 효율적일 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기