객체 혁신성 정량화 모델
초록
본 논문은 인터넷·특허·학술 데이터베이스 등 다양한 출처에서 객체 정보를 수집하고, 언어학적 모델과 신뢰도 평가 기법을 결합해 혁신성(신규성·관련성) 점수를 산출하는 정량적 평가 체계를 제시한다. 특허 데이터를 활용한 실험을 통해 모델의 타당성을 검증하고, 주요 혁신 트렌드를 도출하였다.
상세 분석
이 연구는 ‘혁신성’이라는 다차원 개념을 정량화하기 위해 두 가지 핵심 지표인 신규성(novelty)과 관련성(relevance)을 정의하고, 이를 계산하기 위한 통합 프레임워크를 설계하였다. 먼저, 객체(특허, 제품, 논문 등)의 메타데이터와 본문 텍스트를 웹 크롤링·API 호출을 통해 다중 데이터베이스에서 자동으로 수집한다. 수집 단계에서 중복 제거와 형식 통일을 위해 정규화 파이프라인을 적용하고, 자연어 처리(NLP) 전처리(토큰화, 형태소 분석, 개체명 인식)를 수행한다.
핵심은 ‘객체 언어 모델’이다. 저자들은 Word2Vec·FastText 기반의 임베딩을 객체 수준에 맞게 확장하여, 각 객체를 고차원 벡터로 표현한다. 이때, 특허 청구항·요약·도면 설명을 별도 서브벡터로 구분하고, 가중 평균을 통해 전체 객체 벡터를 생성한다. 이렇게 얻은 벡터는 코사인 유사도 계산에 사용되어, 동일 분야 내 기존 객체와의 거리(신규성)와, 목표 시장·기술 트렌드와의 정렬도(관련성)를 정량화한다.
검색 엔진 결과 통합은 다중 엔진(구글, Bing, 특허 전용 엔진 등)에서 반환된 상위 문서들의 TF‑IDF 가중치를 기반으로 ‘검색 기반 신뢰도 점수’를 산출한다. 신뢰도 평가는 출처(공식 특허청·학술지·기업 웹사이트 등)의 평판, 최신성, 인용 횟수 등을 가중치로 반영한다. 최종 혁신성 점수는 신규성 점수와 관련성 점수에 신뢰도 가중치를 곱한 형태로 정의되어, 객관적·주관적 요소를 동시에 고려한다.
실증 연구에서는 5,000건 이상의 국제 특허 데이터를 대상으로 전처리·벡터화·점수 산출 과정을 적용하였다. 결과는 기존 전문가 평가와 높은 상관관계를 보였으며, 특히 신규성 점수는 특허 인용 횟수와 0.78의 피어슨 상관계수를 기록했다. 또한, 연도별 혁신성 평균값을 시계열 분석한 결과, 인공지능·바이오헬스 분야에서 급격한 상승세가 포착되었다.
한계점으로는(1) 언어 모델이 영어 중심이라 비영어 특허에 대한 표현력이 낮을 수 있다, (2) 신뢰도 평가는 정형화된 메트릭에 의존해 주관적 편향을 완전히 배제하지 못한다, (3) 실시간 데이터 업데이트 비용이 높아 대규모 운영에 제약이 있다. 향후 연구에서는 다국어 임베딩, 베이지안 신뢰도 추정, 그리고 클라우드 기반 스트리밍 파이프라인을 도입해 모델의 확장성과 정확성을 향상시킬 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기