다중헤드 순환 신경망을 이용한 작가 식별
초록
문자 수준 RNN 언어 모델의 출력층을 작가별 서브모델로 분리하고 재귀층을 공유함으로써 제한된 학습 데이터에서도 언어 전체를 효과적으로 학습하고 작가 고유의 스타일을 포착한다
상세 분석
본 논문은 PAN 2015 작가 식별 과제에서 직면하는 데이터 부족 문제를 해결하기 위해 기존 문자 수준 RNN 모델을 변형하였다 먼저 전체 텍스트를 문자 시퀀스로 변환하고 한 개의 재귀층을 통해 시퀀스의 장기 의존성을 학습한다 이 재귀층은 모든 작가에 대해 동일하게 공유되므로 언어 전반의 통계적 특성을 과도하게 파라미터화하지 않는다 그 위에 다중 헤드 구조를 도입하여 각 작가마다 독립적인 출력 서브모델을 배치한다 각 서브모델은 동일한 은닉 상태를 입력받아 작가별 다음 문자 확률 분포를 예측한다 이러한 설계는 두 가지 중요한 효과를 만든다 첫째 공유된 재귀층이 충분히 일반화된 언어 모델을 제공하므로 작은 코퍼스에서도 과적합을 방지한다 둘째 작가별 헤드는 전체 모델의 공통 표현 중에서 작가 특유의 스타일을 강조하는 가중치를 학습한다 결과적으로 각 작가에 대한 확률적 특성이 출력층에 명시적으로 드러난다 실험에서는 4개 언어(영어, 스페인어, 네덜란드어, 그리스어) 각각에 대해 다중 헤드 RNN을 훈련시켰으며, 특히 영어와 스페인어에서 1위 성적을 기록하였다 또한 베이스라인인 n‑gram 기반 SVM과 비교했을 때 동일한 데이터 양에서도 높은 정확도와 F1 점수를 달성하였다 이 논문은 모델 파라미터를 효율적으로 분배함으로써 제한된 데이터 환경에서도 딥러닝 기반 텍스트 저자 식별이 가능함을 증명한다 또한 출력층을 다중 서브모델로 분리하는 아이디어는 다른 도메인(예: 감정 분석, 장르 분류)에도 확장 가능성을 시사한다
댓글 및 학술 토론
Loading comments...
의견 남기기