RNN 기반 시퀀스 변환: 정렬 없이도 가능한 새로운 접근
초록
본 논문은 입력과 출력 사이의 사전 정렬이 필요 없는 순차 변환 모델을 제안한다. 순환 신경망(RNN)과 새로운 확률적 손실 함수인 연결성 정규화(CTC)를 결합해, 입력 시퀀스를 임의의 길이와 구성을 가진 이산 출력 시퀀스로 직접 매핑한다. TIMIT 음성 데이터에서 음소 인식 실험을 통해 기존 모델 대비 우수한 성능을 입증한다.
상세 분석
이 논문은 시퀀스‑투‑시퀀스(transduction) 문제에서 가장 큰 난관인 입력‑출력 정렬(alignment) 문제를 근본적으로 회피한다는 점에서 혁신적이다. 기존 RNN 기반 모델은 입력 시퀀스와 출력 시퀀스 사이에 일대일 매핑을 가정하거나, 외부의 정렬 정보를 필요로 했다. 저자들은 ‘연결성 정규화(connectionist temporal classification, CTC)’라는 손실 함수를 도입해, 네트워크가 출력 시퀀스의 모든 가능한 정렬을 내부적으로 고려하도록 설계했다. CTC는 ‘blank’ 라는 특수 토큰을 추가해, 시간 축상에서 동일한 라벨이 연속적으로 나타나는 경우를 구분하고, 라벨 사이에 삽입·삭제·확장의 자유를 제공한다.
학습 단계에서는 전방‑후방 알고리즘을 이용해 전체 정렬 공간에 대한 로그우도(log‑likelihood)를 효율적으로 계산한다. 구체적으로, α(t, s)와 β(t, s)라는 전방·후방 변수는 각각 시간 t에서 라벨 인덱스 s까지(또는 이후까지) 도달하는 경로의 확률을 누적한다. 이 두 변수를 곱하고 전체 정규화 상수 Z로 나누어 각 라벨‑시간 쌍에 대한 사후 확률을 얻는다. 이렇게 얻은 사후 확률을 이용해 네트워크 출력에 대한 그래디언트를 계산함으로써, 역전파를 통한 파라미터 업데이트가 가능해진다.
모델 구조는 입력을 처리하는 다층 양방향 LSTM(bidirectional LSTM) 네트워크와, 각 시간 단계에서 출력 라벨에 대한 확률 분포를 제공하는 소프트맥스 층으로 구성된다. 양방향 구조는 과거와 미래 정보를 동시에 활용해, 특히 음성 인식과 같이 시간적 의존성이 강한 작업에서 성능 향상을 가져온다.
실험에서는 TIMIT 코퍼스의 음성 파형을 39개의 음소 라벨로 변환하는 작업을 수행했다. 전통적인 HMM‑GMM 기반 시스템과 비교했을 때, 제안된 CTC‑RNN 모델은 사전 정렬 없이도 17.7%의 문자 오류율(Phone Error Rate, PER)을 달성했으며, 이는 동일한 데이터셋에서 기존 RNN‑HMM 하이브리드 모델보다 유의미하게 낮은 수치이다. 또한, 학습 과정에서 출력 길이가 자동으로 결정되는 특성 덕분에, 출력 시퀀스의 길이를 사전에 지정할 필요가 없다는 실용적 장점도 확인되었다.
이 논문은 이후의 ‘시퀀스‑투‑시퀀스’ 모델, 특히 어텐션 기반 트랜스포머와 같은 구조가 등장하기 전, RNN 기반 시퀀스 변환의 한계점을 크게 확장시킨 기초 연구로 평가받는다. CTC는 현재 음성 인식, 손글씨 인식, 생물학적 서열 분석 등 다양한 분야에서 표준 손실 함수로 자리 잡았으며, 정렬 문제를 확률적으로 모델링한다는 아이디어는 이후 연구에 지속적인 영감을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기