문장 연속성 기반 텍스트 구분 SegNSP 재조명
초록
본 논문은 선행 문장 예측(NSP) 작업을 선형 텍스트 구분에 재활용한다. 라벨 없이 문장이 현재 토픽을 이어가는지 판단하도록 모델을 미세조정하고, 도메인 균형 샘플링·하드 네거티브·분할 인식 손실을 도입해 경계 감지를 강화한다. WikiSection과 새로 구축한 포르투갈어 회의록 데이터셋 CitiLink‑Minutes에서 기존 최고 성능 모델을 능가하는 결과를 얻었다.
상세 분석
SegNSP는 기존 BERT 기반 NSP 프리트레이닝을 그대로 사용하기보다는, 선형 텍스트 구분이라는 특수 목적에 맞게 여러 가지 설계 변형을 적용한다. 첫 번째로 라벨-애그노스틱 접근법을 채택해 “다음 문장이 현재 토픽을 이어가는가”라는 이진 판단만을 학습한다. 이는 토픽 라벨이 사전에 정의되지 않은 상황에서도 적용 가능하도록 하며, 도메인 전이성을 높인다. 두 번째로 데이터 샘플링 단계에서 도메인‑밸런스 비율(70% 내부, 30% 경계)과 하드 네거티브(동일 문서 내 무작위 매칭) 샘플을 도입한다. 일반적인 연속 문장 쌍만 사용하면 경계가 희소해 모델이 보수적으로 작동하지만, 인위적으로 경계 샘플을 늘리고 어려운 부정 예시를 제공함으로써 경계 감지 민감도를 크게 향상시킨다. 세 번째로 손실 함수는 focal loss, confidence penalty, boundary‑weight 손실을 가중합한 형태로, 클래스 불균형을 완화하고 경계 근처 오류에 더 큰 페널티를 부여한다. 이러한 설계는 기존 NSP가 “문맥 연속성”을 학습하는 데는 유리하지만, 구분 작업에서는 경계 신호가 약해지는 문제를 효과적으로 보완한다. 실험에서는 두 개의 상이한 데이터셋을 사용한다. WikiSection은 위키피디아 기사에서 명시적 섹션 헤더를 경계로 삼아 비교적 규칙적인 구조를 가지고 있으며, en_city 서브셋(19,539문서, 133,642구간)에서 SegNSP는 B‑F1 0.65를 기록해 기존 최고 성능 TopSeg(0.48)보다 0.17 포인트 앞섰다. CitiLink‑Minutes는 포르투갈어 회의록이라는 저자극적 도메인으로, 인간 주석자가 정의한 경계와의 일치도가 B‑F1 0.79에 달했다. 이는 언어·도메인 차이를 넘어 NSP 기반 접근법이 일반화 가능함을 보여준다. 또한, 모델 크기와 학습 비용 면에서 라벨‑의존 멀티태스크 방식보다 가볍고, 추론 시 문장 쌍마다 확률을 계산해 간단히 임계값을 적용해 경계를 결정하므로 실시간 적용이 용이하다. 전체적으로 SegNSP는 “문장‑문장 연속성”이라는 직관적인 신호를 활용해 복잡한 토픽 전이 문제를 단순화하고, 라벨‑프리 설정과 효율적인 손실 설계로 기존 방법들을 능가하는 실용적인 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기