네트워크 기반 다주제 웹 문서 키워드 추출

네트워크 기반 다주제 웹 문서 키워드 추출
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 크로아티아어 웹 문서들을 단어 공기(co‑occurrence) 기반의 방향성·가중치 네트워크로 변환한 뒤, 노드의 선택성(selectivity) 값을 활용해 키워드를 자동 추출하는 방법을 제안한다. 기존의 차수, 근접성, 매개중심성 등 전통적인 중심성 지표와 비교했을 때, 선택성은 명사·동사·형용사 등 의미를 담은 개방형 어휘를 우선적으로 선정한다. 또한, 인/아웃 선택성 및 가중치를 결합해 단어 쌍을 추출하고, 불용어와 고가중치 필터를 적용해 최종 키워드 후보를 도출한다. 실험은 포털·포럼 등 네 개의 다주제 데이터셋에서 수행됐으며, 선택성 기반 접근이 잡음이 많은 웹 텍스트에서도 견고한 성능을 보임을 확인하였다.

상세 분석

본 연구는 텍스트를 방향성·가중치 단어 공기 네트워크로 모델링한다. 각 단어는 노드, 같은 문장 내에서 인접한 두 단어는 가중치(동시 등장 횟수)를 갖는 유향 간선으로 연결된다. 네트워크 규모는 데이터셋별로 9 00027 000노드, 25 000105 000간선에 달한다. 전통적인 중심성 지표인 차수(degree), 근접성(closeness), 매개중심성(betweenness) 은 모두 높은 순위에 불용어를 배치한다는 한계를 보였다. 이는 웹 문서가 문법적 구조보다 빈번히 등장하는 기능어에 의해 왜곡되기 때문이다.

반면 선택성(selectivity) 은 노드의 강도(strength) 를 차수로 나눈 값(e = s/k)으로 정의되며, 인/아웃 선택성(e_in, e_out)도 각각 입·출 차수와 강도를 이용해 계산한다. 선택성은 단어가 얼마나 다양한 이웃과 강하게 연결되어 있는지를 나타내며, 결과적으로 의미를 담은 핵심 어휘가 높은 값을 갖는다. 실험에서 선택성 상위 10개는 주로 명사·동사·형용사이며, 이는 키워드 후보로 적합함을 시사한다.

키워드 후보를 더 구체화하기 위해 저자는 단어 쌍(tuple) 을 도출한다. 각 노드에 대해 인/아웃 선택성이 높은 경우, 해당 노드와 가장 큰 가중치를 가진 이웃을 연결해 (단어, 이웃) 형태의 쌍을 만든다. 이후 세 가지 필터링을 적용한다. ① 불용어 필터 – 쌍에 불용어가 포함되면 제거, ② 고가중치 필터 – 선택성 값과 가중치가 동일한 경우만 남김, ③ 복합 필터 – 위 두 조건을 동시에 만족하도록 함.

네 개의 데이터셋(NN, GL, IN, SD) 모두에서 인/아웃 선택성 기반 쌍은 의미 있는 콜로케이션을 포착한다. 예를 들어 NN 데이터셋에서는 “nacionalne novine”(국가 신문), “srpsku nacionalnu”(세르비아 국가) 등 실제 주제와 연관된 구문이 높은 순위에 나타났다. 불용어 필터를 적용한 후에도 여전히 의미 있는 어구가 남아, 선택성 기반 방법이 잡음이 많은 다주제 웹 텍스트에서도 도메인·언어 독립적인 키워드 추출이 가능함을 보여준다.

이 접근법의 장점은 지도학습이 필요 없고, 사전 지식(불용어 목록)만으로도 적용 가능하다는 점이다. 따라서 대규모 웹 크롤링 데이터나 라벨링 비용이 높은 상황에서도 빠르게 키워드 후보를 생성할 수 있다. 한계점으로는 문맥적 의미를 완전히 반영하지 못한다는 점과, 가중치가 낮은 드문 어휘는 선택성 점수가 낮아 놓칠 가능성이 있다. 향후 연구에서는 의미 네트워크와 결합하거나, 선택성에 기반한 다중 스케일 클러스터링을 도입해 이러한 약점을 보완할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기