링크드인 프로필 스크래핑과 군집 분석을 통한 인재 특성 파악
초록
본 논문은 공개된 링크드인 프로필 5백만 건을 웹 스크래핑으로 수집하고, 자연어 처리(NLP) 기반 교육 배경 분류와 직업 군집화를 수행한다. 이를 통해 학위와 직업 사이의 연관성을 정량적으로 분석하고, OSN 사용자 특성에 대한 인사이트를 제공한다.
상세 분석
본 연구는 먼저 링크드인 공개 프로필을 대상으로 대규모 웹 스크래핑 파이프라인을 구축하였다. 크롤러는 HTTP 요청 헤더에 사용자 에이전트를 위장하고, 페이지당 100개 이하의 프로필을 제한함으로써 차단 위험을 최소화하였다. 수집된 원시 HTML은 BeautifulSoup과 정규표현식을 이용해 이름, 현재 직책, 경력 기간, 학위, 전공, 학교명 등 구조화된 필드로 추출되었다. 이후 텍스트 정규화 단계에서 영문·한글 혼용, 특수문자, 이모티콘 등을 제거하고, 토큰화와 형태소 분석을 위해 KoNLPy와 spaCy를 병행 사용하였다. 교육 배경 분류는 사전 구축된 학위 레이블(학사, 석사, 박사, 기타)과 전공 카테고리(공학, 경영, 인문·사회, 자연과학 등)를 기반으로 다중 클래스 로지스틱 회귀와 BERT 기반 미세조정 모델을 비교하였다. 검증 결과, 한국어 전공명에 특화된 사전과 BERT 모델을 결합한 하이브리드 접근법이 F1 점수 0.92로 가장 우수했다.
직업 군집화는 직무 설명 텍스트를 TF‑IDF 벡터화한 뒤, 차원 축소를 위해 UMAP을 적용하고, 최종 클러스터링에는 HDBSCAN을 사용하였다. HDBSCAN은 밀도 기반이며, 클러스터 수를 사전에 지정할 필요가 없어 데이터의 자연스러운 군집 구조를 탐지한다. 결과적으로 12개의 주요 직업 군집이 도출되었으며, 각 군집은 “데이터 과학·AI”, “컨설팅·전략”, “소프트웨어 개발”, “마케팅·광고”, “금융·회계” 등으로 명명되었다.
관계 분석 단계에서는 교육 배경과 직업 군집 간 교차표를 작성하고, 카이제곱 검정 및 Cramér’s V를 통해 통계적 연관성을 평가하였다. 특히 석사·박사 학위 소지자는 데이터 과학·AI 군집에 45% 이상 집중되는 반면, 학사 학위는 마케팅·광고 군집에 38% 비중을 차지하는 등 명확한 패턴이 관찰되었다. 또한, 전공별 차이도 뚜렷했는데, 컴퓨터공학 전공자는 소프트웨어 개발 군집에 52% 비중을 차지했으며, 경영학 전공자는 컨설팅·전략 군집에 47% 비중을 차지하였다.
한계점으로는 공개 프로필에 편향이 존재한다는 점, 스크래핑 과정에서 일부 프로필이 누락될 가능성, 그리고 NLP 파이프라인이 다국어 혼용 텍스트에 대해 완전하지 않다는 점을 들 수 있다. 향후 연구에서는 비공개 데이터와 연계한 프라이버시 보호 기법을 도입하고, 멀티모달(텍스트·이미지·네트워크) 분석을 확장함으로써 보다 정교한 인재 매핑 모델을 구축할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기