중복 반복 생성 차단을 위한 신경 요약 모델
초록
본 논문은 RNN 기반 인코더‑디코더 요약 모델에서 자주 발생하는 중복 반복 출력을 억제하기 위해, 인코딩 단계에서 각 목표 어휘의 최대 발생 빈도를 추정하고 이를 디코딩 시 확률에 가감하는 Word‑Frequency‑Estimation(WFE) 서브모델을 제안한다. WFE는 두 개의 게이트(occurrence gate와 frequency gate)를 이용해 단어별 존재 여부와 상한 빈도를 별도로 학습하고, 디코더의 로그우도에 로그형태의 제약을 추가함으로써 추정된 상한을 초과하는 단어 선택을 차단한다. 실험 결과, DUC‑2004와 Gigaword 요약 데이터에서 기존 강력한 인코더‑디코더 베이스라인 대비 ROUGE‑1/2/L 점수가 평균 2~3%p 상승했으며, 현재 최고 성능을 기록한다.
상세 분석
이 논문은 신경망 기반 추상적 요약(Abstractive Summarization)에서 “반복 생성”이라는 현상을 근본적으로 해결하려는 시도를 제시한다. 기존의 RNN‑Encoder‑Decoder 구조는 조건부 언어 모델로 동작하지만, 디코딩 과정에서 동일 구절이나 단어를 과도하게 반복하는 경향이 있다. 특히 DUC‑2004와 같이 출력 길이가 엄격히 제한된 요약 과제에서는 이러한 중복이 요약 품질을 크게 저하시킨다. 저자들은 이를 “coverage” 문제와 구분한다. coverage는 번역에서 원문 토큰이 충분히 ‘커버’되었는지를 체크하는 것이지만, 요약에서는 출력 자체의 길이 제한과 정보 압축이 핵심이므로 단순히 source‑side 정보를 활용하는 기존 방법을 그대로 적용하기 어렵다.
핵심 아이디어는 두 단계로 나뉜다. 첫 번째는 인코더 단계에서 입력 시퀀스 전체를 이용해 각 목표 어휘가 요약에 등장할 최대 빈도를 추정하는 것이다. 이를 위해 입력 은닉 상태 Hs를 두 개의 선형 변환으로 변환한 뒤, 하나는 ReLU 기반의 frequency vector ˆr(양의 실수), 다른 하나는 Sigmoid 기반의 gate vector ˆg(0~1)로 만든다. ˆg는 “이 단어가 등장할 가능성”을, ˆr은 “가능한 최대 횟수”를 나타낸다. 두 벡터는 원소별 곱셈을 통해 최종 추정치 ˆa=ˆr⊙ˆg를 만든다.
두 번째 단계는 디코더에서 이 추정치를 활용해 단어 선택을 제한한다. 기존 디코더는 로그우도 s_{j‑1}+log Softmax(o_j)만을 사용했지만, 여기서는 추가적으로 ˜a_j=log(ClipReLU1(˜r_j)⊙ˆg) 를 더한다. ˜r_j는 현재까지 사용된 빈도를 반영해 매 타임스텝마다 감소하도록 설계되었으며, 0 이하가 되면 해당 단어의 로그우도가 –∞가 되어 선택이 불가능해진다. 즉, 추정된 상한을 초과하는 경우 자동으로 차단한다. 이 메커니즘은 “upper‑bound frequency estimation”이라 부르며, 정확한 빈도와는 달리 약간의 여유(ε=0)를 두어 과소추정에 대해 완화한다.
학습 측면에서는 실제 요약에서 각 단어가 등장한 횟수 a를 라벨로 사용하고, SVR‑형태의 손실 Ψ_wfe를 정의한다. 손실은 ˆa가 a±ε 범위에 있으면 0, 그 외에는 양·음쪽에 다른 가중치(c1<c2)를 부여해 상한을 초과하거나 미달할 경우 각각 다른 페널티를 부과한다. 이를 통해 모델은 가능한 한 실제 빈도보다 낮게 추정하도록 유도된다.
실험에서는 2‑layer bidirectional LSTM 인코더와 2‑layer LSTM 디코더에 글로벌 어텐션을 적용한 기존 강력한 베이스라인을 그대로 사용하고, WFE 서브모델만 추가하였다. DUC‑2004(75바이트 제한)와 Gigaword(길이 제한 없음) 두 데이터셋에서 ROUGE‑1/2/L 점수가 모두 2~3%p 상승했으며, 특히 ROUGE‑2와 ROUGE‑L에서 가장 큰 개선을 보였다. 또한, 기존 최고 성능을 기록한 MR‑T와 비교했을 때도 비슷하거나 약간 앞서는 결과를 얻었다.
이 방법의 장점은 모델 구조를 크게 변경하지 않으면서 반복 생성 문제를 효과적으로 억제한다는 점이다. 추정된 빈도 상한을 디코더에 직접 반영함으로써 빔 서치 단계에서도 불필요한 후보를 초기에 차단한다. 다만, 추정 정확도가 낮을 경우 실제 필요한 단어가 조기에 차단될 위험이 있으며, 현재는 단순한 선형 변환과 max/min pooling에 의존하고 있어 복잡한 문맥 의존성을 충분히 포착하지 못할 가능성이 있다. 향후에는 Transformer 기반 인코더와 결합하거나, 동적 베이지안 방식으로 빈도 추정을 업데이트하는 방향이 연구될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기