대학‑산업 특허연계와 과학기반 분석
본 연구는 USPTO 특허 데이터베이스를 활용해 2002년 대학 소유 특허와 네덜란드 연관 특허의 과학문헌 인용(NPLR) 패턴을 분석한다. 제목 단어의 공동출현 네트워크와 코사인 유사도, 요인분석을 통해 기술 분야별 클러스터를 시각화하고, 바이오테크놀로지가 대학‑산업 관계 모델의 전형이지만 다른 분야에는 일반화하기 어렵다는 결론을 도출한다.
저자: Loet Leydesdorff
본 논문은 인터넷을 통해 접근 가능한 ‘숨은 웹’ 데이터베이스, 특히 미국 특허청(USPTO)에서 제공하는 특허 데이터베이스를 활용해 대학‑산업 지식 관계를 정량적으로 분석한다. 연구자는 2002년에 발행된 전체 특허 184,531건 중에서 ‘univ*’라는 문자열이 할당인(assignee) 주소에 포함된 특허를 검색해 3,291건을 추출하였다. 이는 대학이 직접 특허를 보유하거나 할당받은 사례를 의미한다. 동시에 네덜란드 주소가 포함된 특허를 검색해 2,827건을 확보했으며, 이는 네덜란드 경제와 연계된 국제 특허 활동을 대표한다.
특허 서지정보에 포함된 비특허문헌(NPLR) 인용을 분석하기 위해, 논문은 인용문에 따옴표가 사용된 경우를 과학문헌 인용의 지표로 삼았다. 이는 특허 문헌에서 과학적 근거를 명시적으로 구분하는 관행을 활용한 것으로, 인용된 과학 문헌 수가 특허 인용 수를 초과하는 현상을 확인하였다(대학 특허 집합에서 NPLR 62,138건, 특허 인용 44,268건).
데이터 전처리 단계에서는 USPTO가 제공하는 불용어 리스트를 적용하고, 복수형 ‘s’를 제외한 어휘 정규화를 수행했다. 결과적으로 5,148개의 고유 단어가 도출되었으며, 이 중 빈도가 26회 이상인 102개의 단어를 분석 대상으로 선정하였다. 단어 공동출현 행렬을 구축한 뒤, 초기에는 공동출현 횟수 기준(≥10회)으로 네트워크를 시각화했으며, ‘method(s)’가 중심 노드로 작용하는 별모양 구조를 확인했다.
다음 단계에서는 코사인 유사도(θ=0.1 이상)를 적용해 행렬을 정규화하고, Pajek의 Kamada‑Kawai 알고리즘으로 네트워크를 재구성하였다. 정규화된 네트워크는 바이오메디컬·분자생물학, 얇은 필름·코팅, 고분자·섬유·나노재료 등으로 구분되는 명확한 클러스터를 보여준다. 특히 ‘polymer’, ‘structure’, ‘high’, ‘temperature’와 같은 용어가 여러 클러스터를 연결하는 매개 역할을 한다.
정규화된 네트워크와 동일한 행렬에 대해 요인분석을 수행했으며, 6개의 요인으로 모델링하였다. 요인 1은 바이오메디컬·분자생물학, 요인 2는 고분자·섬유·나노재료, 요인 3은 광학·이미징, 요인 4는 전자·반도체, 요인 5는 화학·촉매, 요인 6은 의료·진단 등으로 해석된다. 요인 간 상관관계는 낮아 각 분야가 독립적인 연구·개발 흐름을 가지고 있음을 시사한다.
네덜란드 특허 집합에 대해서도 동일한 절차를 적용했지만, 단어 클러스터는 보다 분산되고, ‘method’와 같은 일반적인 용어가 중심을 차지한다. 과학문헌 인용 비중이 대학 특허에 비해 낮으며, 이는 네덜란드 특허가 보다 시장 지향적이고 특정 학문 분야에 국한되지 않은 폭넓은 기술 영역을 포괄한다는 점을 반영한다.
연구자는 이러한 분석을 통해 ‘바이오테크놀로지’가 대학‑산업 관계를 설명하는 전형 모델로 자주 인용되지만, 실제 데이터는 다른 기술 분야에서도 다양한 형태의 지식 흐름이 존재함을 보여준다. 따라서 바이오테크놀로지 모델을 다른 분야에 무조건 적용하는 것은 한계가 있다.
마지막으로, 논문은 비특허문헌 인용을 정량적으로 분석함으로써 특허가 실제 과학 지식과 어떻게 연결되는지를 드러내는 방법론적 기여를 강조한다. USPTO 데이터베이스의 무료 접근성과 자동화된 다운로드·파싱 절차를 상세히 제시함으로써, 향후 정보과학자들이 대규모 특허 데이터를 비용 부담 없이 활용할 수 있는 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기