대규모 웹오브사이언스 네트워크 생성 방법

초록

웹오브사이언스 데이터를 관계형 데이터베이스에 저장하고 행‑열 매트릭스로 변환하는 기존 도구는 변수 수 제한(256~1024) 때문에 대규모 네트워크 구축에 어려움이 있었다. 본 논문은 무료 프로그램 txt2Pajek.exe를 이용해 텍스트 기반 매트릭스를 Pajek 형식으로 변환함으로써 변수 수 제한을 극복하고, 수천 개 이상의 저자·키워드·인용 관계를 손쉽게 네트워크로 시각화·분석할 수 있는 방법을 제시한다.

상세 분석

본 연구는 1990년대에 개발된 Leydesdorff 교수팀의 무료 루틴을 기반으로, Web‑of‑Science(WoS)에서 다운로드한 메타데이터를 관계형 데이터베이스(RDBMS)로 정리하고, 각 논문을 행(row)으로, 저자, 기관, 키워드, 참고문헌 등을 열(column)로 배치한 이진 매트릭스를 생성하는 전통적인 워크플로우를 재검토한다. 기존 RDBMS는 컬럼 수에 256~1024개의 상한을 두고 있어, 특히 다학제 연구나 대규모 협업 프로젝트에서 발생하는 수천 개의 변수(예: 저자명, 키워드, 주제분류)를 모두 포함시키기가 불가능했다. 이러한 제약은 네트워크 분석 단계에서 중요한 정보 손실을 초래하고, 연구자들이 데이터 전처리 과정에서 인위적인 변수 축소를 강요받게 만든다.

논문은 이 문제를 해결하기 위해 txt2Pajek.exe라는 프리웨어를 도입한다. txt2Pajek는 텍스트 파일 형태의 인시던스 매트릭스를 직접 Pajek(.net) 형식으로 변환한다. Pajek은 네트워크 분석 전용 소프트웨어로, 수십만 노드와 수백만 엣지를 지원하므로 변수 수 제한이 실질적으로 사라진다. 변환 과정은 크게 세 단계로 구성된다. 첫째, WoS 데이터베이스에서 추출한 원시 레코드를 기존 루틴으로 CSV 혹은 TSV 형태의 행‑열 매트릭스로 내보낸다. 둘째, 매트릭스 파일을 txt2Pajek가 요구하는 포맷(예: ‘*Vertices’, ‘*Edges’ 혹은 ‘*Matrix’)에 맞게 간단히 재구성한다. 이때 각 변수는 고유 번호로 매핑되며, 행‑열 값이 1이면 해당 논문과 변수 사이에 연결 고리가 존재한다는 의미다. 셋째, txt2Pajek를 실행해 .net 파일을 생성하고, 이를 Pajek, Gephi, UCINET 등 다양한 네트워크 시각화·분석 툴에 바로 로드한다.

이 절차의 핵심 장점은 (1) 변수 수에 대한 인위적 제한이 사라져 데이터 손실 없이 전체 메타데이터를 보존할 수 있다, (2) 텍스트 기반 변환이므로 별도의 고성능 데이터베이스 서버 없이도 일반 PC 환경에서 처리 가능하다, (3) 생성된 .net 파일이 표준 포맷이기 때문에 후속 분석(중심성, 군집, 커뮤니티 탐지 등)을 다양한 오픈소스 툴에서 일관되게 수행할 수 있다. 또한, txt2Pajek는 메모리 사용량을 최소화하도록 설계돼, 수십만 행·수천 열 규모의 매트릭스도 수분 내에 변환한다는 실험 결과가 제시된다.

한계점으로는 텍스트 파일 전처리 단계에서 변수명에 공백이나 특수문자가 포함될 경우 매핑 오류가 발생할 수 있어, 사전 정제 과정이 필요하다는 점이다. 또한, 변환 후 생성된 네트워크가 매우 밀집될 경우 시각화가 복잡해질 수 있어, 필터링 혹은 차원 축소 기법을 병행해야 한다. 그럼에도 불구하고, 저자들은 이 방법이 기존 RDBMS 기반 분석 흐름을 보완하고, 대규모 과학·기술 네트워크 연구에 실용적인 대안을 제공한다고 결론짓는다.