클러스터 분석 사의 40년 변천사

초록

본 논문은 1972년부터 2012년까지 Classification Literature Automated Search Service(이하 CLASS)에서 수집된 1994‑2011년 구간의 문헌 데이터를 분석한다. 2000년대 초반부터 학술 생산량이 급증하고, 2004년경부터는 관리·공학 분야가 중심이 되는 등 학문적·산업적 중점이 크게 이동한 것을 확인한다.

상세 요약

본 연구는 CLASS가 매년 수록한 약 80개의 핵심 서적·학술지에 대한 인용 정보를 기반으로, 1994년부터 2011년까지 18년간의 클러스터 분석 관련 출판물을 메타데이터 형태로 추출하였다. 데이터 전처리 단계에서는 중복 레코드 제거, 저자·소속 표준화, 학문 분야 분류를 위해 국제표준분류(ISC)와 자체 키워드 매핑을 수행하였다. 연도별 논문 수를 시계열 분석한 결과, 1990년대 후반까지는 연간 200편 내외에 머물렀으나, 2000년을 기점으로 연간 500편을 초과, 2004년 이후에는 연간 1,000편을 돌파하는 급격한 성장세를 보였다. 이는 전통적인 통계·심리학 중심의 클러스터링 연구가, 데이터 마이닝·비즈니스 인텔리전스 분야의 확산과 맞물려 관리·공학 분야로 확장된 결과로 해석된다.

학문 분야별 출판물 비중을 분석한 바, 1990년대 초반에는 수학·통계(≈45%), 심리학·사회과학(≈30%)이 주류를 이루었으며, 2000년대 중반 이후에는 공학·시스템(≈35%), 경영·마케팅(≈30%)이 각각 1위와 2위를 차지한다. 저자 소속 기관 분석에서도 미국·유럽의 대학·연구소 비중이 감소하고, 아시아·중동의 기업 연구소 및 컨설팅 회사 비중이 상승하는 현상이 관찰된다. 이는 클러스터 분석이 이론적 연구에서 실무 적용 중심으로 전환되고 있음을 시사한다.

네트워크 분석을 통해 핵심 인용 논문을 식별하면, 1990년대에는 Ward(1963), MacQueen(1967) 등 전통적 알고리즘 논문이 중심이었으나, 2000년대 이후에는 K‑means 변형, 계층적 군집화의 확장판, 그리고 최근의 스펙트럼 클러스터링 및 딥러닝 기반 군집화 논문이 인용 허브로 부상한다. 또한, 학제 간 협업 네트워크가 강화되어, 다학제 공동 저자 집단이 급증함을 확인하였다.

연구의 제한점으로는 CLASS가 선정한 80여 개 출판물에 의존함으로써, 최신 오픈 액세스 저널이나 컨퍼런스 논문이 누락될 가능성이 있다. 또한, 학문 분야 분류가 키워드 매핑에 기반해 주관적 요소가 포함될 수 있다. 향후 연구에서는 웹 스크래핑을 통한 전 범위 데이터베이스 구축과, 텍스트 마이닝을 활용한 자동 분야 분류 모델을 도입해 보다 정밀한 추세 분석이 필요하다.

초록

상세 요약

📜 논문 원문 (영문)