저자 공동인용 정규화와 시각화 코사인 대 자카드 인덱스

저자 공동인용 정규화와 시각화 코사인 대 자카드 인덱스
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 저자 공동인용 분석(ACA)에서 사용되는 정규화 방법을 검토한다. 대칭적인 공동인용 행렬과 비대칭적인 인용‑발생 행렬을 구분하고, 웹 환경에서 원시 인용 데이터를 얻기 어려울 때는 대각선에 총 인용 횟수를 추가한 자카드 지수를 활용할 것을 제안한다. 자카드 지수는 분포 형태에 영향을 받지 않아 스패리시티가 높은 데이터에서 유용한 특성을 가진다.

상세 분석

논문은 먼저 ACA에서 흔히 사용되는 두 종류의 행렬, 즉 대칭적인 공동인용(co‑citation) 행렬과 비대칭적인 인용‑발생(citation‑occurrence) 행렬을 명확히 구분한다. 전자는 저자 A와 B가 동일 문헌에 동시에 인용된 횟수를 집계한 것이며, 후자는 각 저자가 개별 문헌을 인용한 횟수를 원본 데이터로 보관한다. 이 두 행렬은 정규화 과정에서 서로 다른 통계적 특성을 보이는데, 특히 비대칭 행렬은 원시 인용 빈도와 방향성을 유지하므로 보다 풍부한 정보를 제공한다. 그러나 웹 기반 데이터베이스에서는 원시 인용 데이터를 직접 추출하기가 현실적으로 어렵다. 따라서 연구자는 대칭 행렬만을 이용해 유사도를 계산해야 하는 상황에 직면한다.

이러한 제약 하에서 전통적으로 사용되어 온 Salton의 코사인 유사도와 피어슨 상관계수는 벡터의 크기와 방향, 즉 각 저자의 전체 인용 분포 형태를 반영한다. 코사인은 두 저자 벡터의 내적을 각 벡터의 유클리드 노름으로 나누어 정규화하므로, 빈도가 높은 저자와 낮은 저자 사이의 상대적 차이를 강조한다. 피어슨 상관은 평균을 중심으로 한 편차를 이용해 선형 관계를 측정하지만, 데이터가 희소하고 비정규분포일 경우 왜곡될 위험이 있다.

반면 자카드 인덱스는 두 집합의 교집합 크기를 합집합 크기로 나누는 단순한 비율이다. 즉, A와 B가 동시에 인용된 문헌 수를 (A의 전체 인용 수 + B의 전체 인용 수 − 교집합)으로 나눈다. 이때 논문은 대각선에 각 저자의 총 인용 횟수를 삽입함으로써, 교집합·합집합 계산에 누락될 수 있는 자기 인용 정보를 보완한다. 자카드의 핵심 장점은 분포의 형태—예를 들어 인용 빈도의 스케일 차이나 비대칭성—에 무관하게 순수히 “공통성”만을 평가한다는 점이다. 따라서 공동인용 행렬에서 발생할 수 있는 스패리시티와 인용 패턴의 비선형성으로 인한 가짜 상관을 억제한다.

실증 분석에서는 동일한 ACA 데이터셋에 대해 코사인, 피어슨, 자카드 세 가지 유사도 행렬을 계산하고, 다차원 척도법(MDS) 및 군집 분석을 적용하였다. 결과는 코사인과 피어슨이 유사도 순위에서는 비슷하지만, 시각화된 거리 맵에서 몇몇 저자군이 과도하게 분리되는 현상을 보였다. 반면 자카드 기반 행렬은 군집 경계가 보다 명확하고, 특히 저자 간 실제 학문적 연관성을 반영한 군집이 도출되었다. 이는 자카드가 “교집합 중심” 특성으로 인해 스파스한 공동인용 데이터에서 의미 있는 신호를 보존함을 시사한다.

결론적으로, 원시 인용‑발생 데이터를 확보할 수 없는 웹 기반 연구 환경에서는 대칭 공동인용 행렬에 총 인용 횟수를 대각선에 추가한 자카드 인덱스를 정규화 도구로 채택하는 것이 실용적이며, 시각화와 군집 해석 측면에서도 장점을 제공한다는 것이 논문의 핵심 주장이다.


댓글 및 학술 토론

Loading comments...

의견 남기기