조건부 순환 언어 모델을 위한 소음 병렬 근사 디코딩
본 논문은 조건부 순환 언어 모델의 디코딩 단계에 소음을 주입하여 다수의 병렬 탐색 체인을 실행하고, 최종적으로 가장 높은 로그우도 점수를 가진 결과를 선택하는 NP‑AD(Noisy Parallel Approximate Decoding) 방식을 제안한다. 기존의 탐욕적 검색이나 빔 서치와 비교해 번역 품질을 향상시키면서도 병렬화에 의해 실시간 성능 저하를 최소화한다. 영어‑체코 기계번역 실험을 통해 성능 개선을 입증하였다.
저자: Kyunghyun Cho
본 논문은 조건부 순환 언어 모델(Conditional Recurrent Language Model, CRLM)의 디코딩 단계에 초점을 맞추어, 기존에 주로 탐욕적 검색(greedy)이나 빔 서치(beam search)와 같은 단일 경로 탐색에 의존해 온 한계를 극복하고자 한다. 저자는 깊은 신경망이 입력 데이터 매니폴드를 숨은 상태 공간에 고르게 펼쳐 놓는다는 기존 연구(‘데이터 매니폴드 스트레칭’)를 기반으로, 숨은 상태에 가우시안 노이즈를 주입함으로써 모델이 탐색하지 못했던 다양한 잠재 경로를 효율적으로 탐색할 수 있음을 제안한다.
### 1. 배경 및 문제 정의
조건부 순환 언어 모델은 입력 시퀀스 Y(예: 원문)와 출력 시퀀스 X(예: 번역문) 사이의 확률 p(X|Y)를 학습한다. 이때 디코딩은 argmaxₓ log p(X|Y)를 찾는 과정이며, 정확한 해는 상태 공간이 지수적으로 커서 실질적으로 불가능하다. 따라서 탐욕적 검색, 빔 서치, 스토캐스틱 샘플링 등 근사 방법이 사용된다. 그러나 이러한 방법은 탐색 폭이 제한적이며, 특히 빔 서치는 각 단계마다 후보를 교환해야 하므로 병렬화가 어려워 실시간 시스템에 부담을 준다.
### 2. NP‑AD(노이즈 병렬 근사 디코딩) 설계
NP‑AD는 기존 디코더에 노이즈가 삽입된 변형을 적용하고, 이를 M개의 독립적인 디코딩 체인에 병렬로 실행한다. 구체적인 변형은 다음과 같다.
- 기존 상태 전이식: hₜ = φ(hₜ₋₁, E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기