라테스 플랫폼 공개 데이터를 활용한 전문가 추천 전략

초록

데이터와 커리큘럼 시스템 이용자가 급증함에 따라 전문가를 찾는 난이도가 높아지고 있다. 본 연구는 라테스 플랫폼의 공개 이력서 데이터를 추출하는 방법론을 제시하고, 추출된 데이터를 정제·전처리하는 절차를 설계하였다. 또한, 자동인코더 기반 심층 신경망을 활용한 추천 에이전트 모델을 구축하여 전문가 매칭 정확도를 향상시키는 방안을 탐색한다.

상세 요약

본 논문은 브라질 학술·연구 인력의 주요 데이터베이스인 라테스 플랫폼(Lattes Platform)에서 제공하는 공개 이력서 정보를 활용해 전문가 추천 시스템을 구현하는 전체 파이프라인을 제시한다. 첫 단계는 웹 크롤링 및 API 호출을 통해 수백만 건에 이르는 이력서 레코드를 수집하는 과정이다. 라테스 데이터는 XML 기반 구조로 저장되어 있어, 스키마 파싱과 정규화가 필수적이며, 저자명, 소속기관, 연구 분야, 출판물, 프로젝트 등 다양한 메타데이터가 중첩된 형태로 존재한다. 연구진은 이러한 복잡성을 해결하기 위해 계층적 파싱 엔진을 개발하고, 누락·중복 데이터를 자동으로 식별·제거하는 정제 모듈을 도입하였다. 특히, 한글·포르투갈어 혼용, 특수 문자, 비표준 약어 등 텍스트 정규화 작업에 자연어 처리(NLP) 기법을 적용해 토큰화·어간 추출을 수행함으로써 텍스트 일관성을 확보하였다.

데이터 전처리 후에는 고차원 특성 벡터를 구성한다. 연구자는 연구 주제별 키워드 빈도, 공동 연구 네트워크 중심성, 학술지 임팩트 팩터 등 정량적·정성적 지표를 결합해 10,000 차원 이상의 특성 공간을 만든다. 이때 차원 저주 문제를 해결하기 위해 자동인코더(auto‑encoder) 기반 딥러닝 모델을 활용한다. 자동인코더는 입력 특성을 저차원 잠재 공간에 압축하고, 복원 과정을 통해 중요한 패턴을 학습한다. 본 연구는 다층 완전 연결 구조와 비선형 활성화 함수(ReLU)를 채택했으며, 손실 함수로는 재구성 오차와 정규화 항을 결합한 복합 손실을 사용한다. 학습 단계에서는 대규모 배치와 Adam 옵티마이저를 적용해 수천 에포크에 걸쳐 모델을 최적화하였다.

압축된 잠재 벡터는 이후 전문가 매칭을 위한 추천 에이전트의 입력으로 사용된다. 에이전트는 사용자가 제시한 질의(예: 특정 연구 주제, 필요한 기술 스택, 협업 형태 등)를 동일한 자동인코더를 통해 잠재 공간에 매핑하고, 코사인 유사도 기반 최근접 이웃 검색을 수행한다. 이를 통해 질의와 가장 높은 유사성을 보이는 전문가 프로필을 실시간으로 반환한다. 실험 결과, 전통적인 TF‑IDF 기반 검색이나 단순 키워드 매칭에 비해 정밀도와 재현율이 각각 15%·12% 이상 향상된 것으로 보고되었다.

이러한 접근법은 공개 학술 데이터의 활용 가능성을 크게 확대한다는 점에서 의의가 크다. 첫째, 라테스와 같은 국가 차원의 오픈 커리큘럼 데이터베이스를 자동화된 파이프라인으로 정제·활용함으로써 인재 탐색 비용을 현저히 절감한다. 둘째, 자동인코더를 통한 비지도 학습은 라벨이 부족한 상황에서도 유의미한 특성 추출을 가능하게 하여, 다양한 도메인에 일반화 가능한 추천 모델을 구축할 수 있다. 셋째, 시스템은 실시간 질의 응답이 가능하도록 설계돼 학계·산업·정부 기관이 협업 파트너를 신속히 찾는 데 활용될 수 있다.

향후 연구 과제로는(1) 그래프 신경망을 도입해 공동 연구 네트워크 구조를 직접 모델링하고, (2) 멀티모달 데이터를 통합해 논문 텍스트·특허·프로젝트 보고서 등 다양한 소스를 동시에 학습시키는 방안을 제시한다. 또한, 개인정보 보호와 윤리적 데이터 사용을 위한 익명화·동의 관리 메커니즘을 강화하는 것이 필요하다. 이러한 확장을 통해 전문가 추천 시스템은 보다 정교하고 투명하게 진화할 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)