공동발생 행렬과 정보과학의 새로운 적용
초록
공동인용·공동단어·공동링크 등 공동발생 행렬은 정보과학에서 널리 활용돼 왔지만, 행렬의 대칭·비대칭 특성을 오해해 통계 분석에 혼란이 있었다. 본 논문은 대칭 공동인용 행렬과 비대칭 인용 행렬의 차이를 명확히 구분하고, 각각에 적합한 분석 기법을 제시한다. 또한 구글 스칼라를 이용한 웹 데이터 수집 사례를 통해 전통적 다변량 분석과 사회망 분석 도구인 Pajek을 결합한 새로운 시각화 방법을 소개한다.
상세 분석
논문은 먼저 공동발생 행렬을 두 종류로 구분한다. 대칭 공동인용 행렬은 문헌 A와 B가 서로 인용된 횟수를 행·열에 동일하게 기록한 형태로, 이미 ‘유사도’ 자체를 내포하고 있다. 따라서 추가적인 유사도 측정(피어슨 상관계수, 코사인 등)을 적용하면 정보가 중복되고 왜곡될 위험이 있다. 반면 비대칭 인용 행렬은 행이 인용하는 문헌, 열이 인용받는 문헌을 구분해 기록한다. 이 경우 행벡터 간의 상관관계를 계산해 새로운 ‘근접 행렬’(proximity matrix)을 만들 수 있다. 즉, 피어슨 상관이나 코사인 유사도를 적용해 각 문헌이 다른 문헌을 얼마나 비슷하게 인용하는지를 정량화한다.
통계적 처리 단계에서는 비대칭 행렬에 대해 차원 축소 기법(주성분 분석, 다차원 척도법 등)을 적용해 저차원 공간에 배치하고, 그 결과를 군집 분석이나 시각화에 활용한다. 대칭 행렬은 이미 거리 혹은 유사도 형태이므로, 직접적인 군집화나 네트워크 그래프 생성에 바로 사용할 수 있다.
웹 환경에서는 전통적인 SCI 데이터베이스와 달리 검색 엔진이 반환하는 결과가 비정형이며, 인용 정보가 완전하지 않을 수 있다. 저자는 구글 스칼라를 이용해 특정 키워드 조합에 대한 검색 결과를 수집하고, 각 논문의 인용 리스트를 파싱해 비대칭 인용 행렬을 구축했다. 이후 이 행렬에 피어슨 상관을 적용해 근접 행렬을 만들고, 이를 기반으로 Pajek에서 사회망 그래프를 생성하였다. Pajek은 노드(논문)와 엣지(공동인용 강도)를 시각적으로 표현해, 전통적 다변량 분석이 놓칠 수 있는 구조적 패턴을 드러낸다.
핵심 통찰은 다음과 같다. 첫째, 행렬의 대칭성 여부에 따라 적절한 통계 기법을 선택해야 한다는 점; 둘째, 웹 기반 데이터는 비대칭 형태가 일반적이므로, 비대칭 행렬을 직접 다루는 절차가 필수적이다; 셋째, 사회망 분석 도구와 전통적 통계 방법을 결합하면 공동발생 현상의 다층적 의미를 보다 풍부하게 해석할 수 있다. 이러한 접근은 학술 네트워크뿐 아니라 특허, 소셜 미디어, 온라인 뉴스 등 다양한 정보 생태계에도 확장 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기