함수어 인접망을 활용한 저자식별 기법

함수어 인접망을 활용한 저자식별 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

함수어만을 노드로 하는 방향성 인접망(WAN)을 구축하고, 이를 확률 전이 행렬로 정규화해 마코프 체인으로 해석한다. 저자별 WAN의 상대 엔트로피를 거리 척도로 사용해 미지 텍스트를 가장 가까운 저자 프로필에 매핑한다. 파라미터 α·D와 함수어 집합을 최적화한 결과, 전통적인 단어 빈도 기반 방법보다 높은 정확도를 보였으며, 빈도 기반 기법과 결합하면 정확도가 더욱 향상된다.

상세 분석

본 논문은 저자식별을 위해 함수어(Function Word) 간의 순서적 관계를 그래프 형태로 모델링한다. 텍스트를 문장 단위로 분할하고, 각 문장에서 함수어 i와 함수어 j 사이의 거리 d가 1≤d≤D(보통 D=10)일 때 감쇠 계수 α∈(0,1)를 적용해 가중치 α^{d‑1}를 부여한다. 이렇게 정의된 유향 근접도 d(ω₁,ω₂)를 모든 문장에 대해 합산하면 함수어 쌍 (f_i,f_j)의 원시 유사도 Q_t(f_i,f_j)가 얻어진다.

Q_t는 텍스트 길이에 민감하므로, 각 행의 합으로 정규화해 ˆQ_t(f_i,f_j)=Q_t(f_i,f_j)/∑_k Q_t(f_i,f_k) 를 수행한다. 정규화된 행렬 ˆQ_t는 각 행이 1로 합쳐지는 전이 확률 행렬이 되며, 이는 이산 시간 마코프 체인 P_t으로 해석될 수 있다. 저자 a_c에 대해 모든 알려진 텍스트 t∈T(c)의 Q_t를 평균한 뒤 동일한 정규화를 적용해 저자 프로필 P_c를 만든다.

두 마코프 체인 P₁, P₂ 사이의 차이는 상대 엔트로피 H(P₁,P₂)=∑_{i,j}π_i P₁(i,j) log


댓글 및 학술 토론

Loading comments...

의견 남기기