웹오브사이언스 주제분류를 활용한 평가계량학의 한계와 대안
초록
본 논문은 평가계량학에서 인용점수 정규화에 널리 사용되는 웹오브사이언스(WoS) 주제분류(WC)의 역사적 배경과 구조적 한계를 분석한다. 특히 “정보·도서관학”과 “과학·기술학(STS)” 분야를 사례로 삼아, 분류의 기계적·수동적 보정 과정에서 발생하는 ‘인덱서 효과’가 정규화의 신뢰성을 저해함을 보여준다. 저자는 기존 “최선 실천(best practice)”을 고수하기보다 “가능한 최선 실천(best possible practice)”을 모색할 것을 제안한다.
상세 분석
WoS 주제분류(WC)는 1970년대 초반 정보 검색을 목적으로 개발된 뒤, 데이터베이스 확장에 따라 점진적으로 수정돼 왔다. 초기 설계는 저널의 내용과 인용 네트워크를 기반으로 자동 분류 알고리즘을 적용했으며, 이후 인간 인덱서가 개입해 오류를 교정하는 하이브리드 방식을 채택한다. 이러한 구조적 특성은 두 가지 근본적인 문제를 야기한다. 첫째, 분류 기준이 시대에 따라 변동하면서 동일한 저널이 시간에 따라 다른 WC에 할당될 수 있다. 예를 들어, ‘정보과학·도서관학’ 분야의 저널 중 일부는 과거에는 ‘컴퓨터 과학’ 카테고리로, 현재는 ‘정보 과학’으로 재분류되었다. 이는 인용 정규화 시 기준 집합(reference set)의 일관성을 해친다. 둘째, 인덱서가 직접 개입하는 과정에서 ‘인덱서 효과(indexer effect)’가 발생한다. 인덱서는 자신의 학문적 배경이나 편향에 따라 저널을 다중 할당하거나 누락할 수 있다. 특히 STS와 같이 학제 간 특성이 강한 분야에서는 저널이 ‘사회학’, ‘과학기술정책’, ‘역사학’ 등 여러 WC에 동시에 배정되지만, 실제 연구 주제와는 불일치하는 경우가 빈번하다. 이러한 불일치는 정규화된 인용 점수(CN, FN 등)의 왜곡을 초래한다. 논문은 두 사례를 정량적으로 검증한다. ‘정보·도서관학’ 저널 120편을 대상으로 WC 할당 현황을 분석한 결과, 35%가 다중 할당되었으며, 평균 인용량 차이가 0.27 표준편차에 달했다. STS 분야에서는 48%의 저널이 2개 이상 WC에 속했으며, 정규화된 평균 인용점수가 0.41 표준편차 차이를 보였다. 이러한 통계는 WC 기반 정규화가 분야 간 비교에 있어 통계적 신뢰성을 크게 저해함을 시사한다. 저자는 기존 ‘최선 실천(best practice)’이 과학적 근거보다는 관행에 기반한 것임을 비판하고, 데이터 기반의 동적 분류 체계(예: 논문 수준의 주제 모델링, 인용 네트워크 클러스터링)를 도입해 ‘가능한 최선 실천(best possible practice)’을 구축할 것을 제안한다. 이는 정규화 과정에서 인덱서 주관성을 최소화하고, 학문 분야의 실제 경계와 일치하는 기준 집합을 제공함으로써 평가의 투명성과 공정성을 높일 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기