페르시아 블로그 네트워크를 위한 데이터 전처리 프레임워크와 실험적 적용

페르시아 블로그 네트워크를 위한 데이터 전처리 프레임워크와 실험적 적용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 페르시아어 블로그 플랫폼인 ParsiBlog 데이터를 대상으로, 콘텐츠, 구조, 프로파일 세 가지 차원에서 데이터를 정형화하는 전처리 프레임워크를 제안한다. 전처리 후 TF‑IDF 기반 키워드 추출·코사인 유사도 계산, 그래프 기반 연결성 분석·강한 연결 성분 추출, PageRank·HITS 순위 산출을 수행하였다. 실험 결과는 페르시아 블로그 네트워크 분석에 필요한 데이터 정제 절차와 주요 통계 정보를 제공한다.

상세 분석

이 논문은 소셜 네트워크 분석에서 데이터 전처리 단계가 전체 분석 효율에 미치는 영향을 강조하며, 특히 비라틴 문자와 복합 인코딩을 사용하는 페르시아어 블로그에 특화된 절차를 설계했다. 프레임워크는 크게 세 부분으로 나뉜다. 첫째, 콘텐츠 데이터 전처리에서는 HTML 태그 제거, 언어 정규화(페르시아어, 파인글리시, 영어 혼용), 불용어 제거, 키워드 추출, 워드 벡터화, TF‑IDF 가중치를 이용한 문서‑블로그 행렬 구축, 코사인 유사도 계산을 수행한다. 이는 블로그 간 주제적 유사성을 정량화하는 데 필수적이며, 133 472개의 포스트에서 약 15 000개의 키워드를 도출해 효율적인 차원 축소를 가능하게 한다. 둘째, 구조 기반 전처리에서는 블로그 롤, 포스트 간 인용, 댓글 링크 등 네 가지 상호작용 유형을 모두 추출하고, 외부 링크와 자기 루프를 제거한다. 이후 블로그 롤·포스트·댓글 그래프를 통합하고, 고립 노드를 삭제해 데이터 희소성을 감소시킨다. 특히 강한 연결 성분(SCC) 중 10개 이상 노드를 가진 컴포넌트를 선택해 최종 그래프를 9 065노드·22 216엣지로 축소함으로써 네트워크 분석의 계산 복잡도를 크게 낮췄다. 셋째, 프로파일 데이터 전처리에서는 인구통계, 제품·인물·장소 언급, 심리·행동 특성 등 명시적·암묵적 정보를 구분하고, 텍스트·이미지·비디오 메타데이터를 활용해 사용자 특성을 다차원적으로 모델링한다. 실험 결과, 평균 연령 21세, 15‑30세가 주류인 젊은 층이 대부분이며 남성 블로거 비중이 높았다. 또한 PageRank와 HITS 알고리즘을 적용해 블로그의 권위와 허브 역할을 정량화했으며, 입력 링크 수만으로도 간단한 인기 지표를 제공한다. 전체적으로 이 프레임워크는 비정형 웹 로그 데이터를 정형화하고, 네트워크 구조와 내용적 특성을 동시에 고려함으로써 페르시아어 블로그 연구에 필요한 데이터 파이프라인을 표준화한다는 점에서 의의가 크다. 다만, 트랙백이 지원되지 않는 플랫폼에 한정된 점, 언어 정규화 과정에서 파인글리시와 같은 혼합어 처리의 정확도 검증 부족, 그리고 전처리 후 얻은 그래프의 동적 변화(시간에 따른 업데이트) 분석이 미흡한 점은 향후 보완이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기