서로 일치할까 이탈리아 연구 평가의 서지계량과 동료 평가 비교
이 논문은 이탈리아 국가연구평가기관 ANVUR가 시행한 실험을 재검토한다. 동일 논문 표본을 서지계량지표와 정보제공 동료평가(IR) 두 방법으로 평가하고, 가중 코헨 카파로 일치도를 측정했다. ANVUR는 ‘좋음’ 혹은 ‘충분히 좋음’이라고 결론지었지만, 본 재분석은 카파값이 0.09‑0.42에 불과해 대부분 ‘불충분’ 혹은 ‘미흡’ 수준이며, 경제·통계
초록
이 논문은 이탈리아 국가연구평가기관 ANVUR가 시행한 실험을 재검토한다. 동일 논문 표본을 서지계량지표와 정보제공 동료평가(IR) 두 방법으로 평가하고, 가중 코헨 카파로 일치도를 측정했다. ANVUR는 ‘좋음’ 혹은 ‘충분히 좋음’이라고 결론지었지만, 본 재분석은 카파값이 0.09‑0.42에 불과해 대부분 ‘불충분’ 혹은 ‘미흡’ 수준이며, 경제·통계 분야(Area 13)만이 ‘보통’ 수준의 일치를 보인다고 밝힌다. 그러나 Area 13의 평가 절차가 다른 분야와 크게 달라 결과가 신뢰할 수 없으며, 전반적으로 IR과 서지계량은 일관된 결과를 제공하지 않음이 확인된다.
상세 요약
본 논문은 ANVUR가 2004‑2010년 사이 진행한 VQR(Valutazione della Qualità della Ricerca)에서 적용한 ‘정보제공 동료평가(IR)’와 ‘서지계량 지표’를 동일 논문에 동시에 적용한 실험 데이터를 재해석한다. ANVUR는 가중 코헨 카파(κ)를 이용해 분야별 일치도를 측정했으며, κ값이 0.4 이상이면 ‘좋음(good)’으로, 0.2‑0.4이면 ‘충분히 좋음(more than adequate)’으로 해석했다. 그러나 국제적인 통계학계에서는 κ값 0.01‑0.20을 ‘거의 없음(poor)’, 0.21‑0.40을 ‘약함(fair)’, 0.41‑0.60을 ‘보통(moderate)’, 0.61‑0.80을 ‘상당(good)’, 0.81‑1.00을 ‘우수(excellent)’로 정의한다. 논문은 실제 측정된 κ값이 0.09‑0.42 사이에 머물러, 대부분 ‘거의 없음’ 혹은 ‘약함’ 수준에 불과함을 강조한다. 특히 인문·사회(Area 1‑5)와 자연과학(Area 6‑12) 전반에서 κ가 0.09‑0.30에 머물러, 두 평가방법 간 일관성이 현저히 낮다.
예외적으로 경제·통계(Area 13)와 그 하위 분야에서는 κ가 0.41에 근접해 ‘보통’ 수준으로 해석될 수 있다. 그러나 저자는 이 분야에서 적용된 평가 프로토콜이 다른 영역과 실질적으로 다르다는 점을 지적한다. 구체적으로, Area 13에서는 IR 평가자가 서지계량 결과를 사전에 확인하고 이를 반영하도록 지시받았으며, 평가 기준 자체가 서지계량에 편향된 형태로 설계되었다. 이러한 절차적 차이는 κ값을 인위적으로 상승시켰을 가능성을 내포한다.
또한 메타분석을 수행해 전체 κ값의 평균과 이질성을 검증했으며, 이질성 통계(Q)와 I²가 높게 나타나 분야 간 일치도 차이가 통계적으로 유의함을 확인한다. 결과적으로, IR과 서지계량이 동일한 연구 성과를 측정한다는 가정은 실증적으로 입증되지 않는다.
논문은 이러한 결과가 VQR 전체 평가에 시스템적 편향을 초래했을 가능성을 제기한다. IR과 서지계량을 병행 사용함으로써, 동일 논문이 두 평가방법에 따라 서로 다른 등급을 받을 위험이 존재한다. 이는 연구자와 기관이 평가 결과에 따라 자금 배분, 인사 결정 등을 받는 상황에서 공정성을 크게 훼손한다.
결론적으로, 저자는 ANVUR가 제시한 ‘좋음’ 혹은 ‘충분히 좋음’이라는 결론을 통계적 근거에 비추어 전면 재검토해야 하며, 향후 연구 평가에서는 한 가지 방법에 의존하거나, 두 방법을 병합할 경우 엄격한 검증 절차와 투명한 프로토콜을 마련해야 한다고 주장한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...