저자명 중복 해소를 위한 불균형 학습 데이터의 영향

저자명 중복 해소를 위한 불균형 학습 데이터의 영향
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 저자명 중복 해소(author name disambiguation) 작업에서 부정(negative) 샘플이 과다하게 존재하는 상황이 머신러닝 성능에 미치는 영향을 실험적으로 분석한다. 로지스틱 회귀, 나이브 베이즈, 랜덤 포레스트 3가지 분류기를 사용해 긍정·부정 샘플 비율을 1:1부터 1:20까지 다양하게 조정한 뒤, 공동저자명·논문제목어 등 대표 피처로 학습시켰다. 결과는 부정 샘플을 일정 수준 이상 늘리면 성능이 소폭 향상되지만, 1:10~1:15 정도에서 포화되며 때로는 감소한다는 점을 보여준다. 특히 로지스틱 회귀와 나이브 베이즈는 1:1 비율만으로도 최적에 가까운 모델을 만들 수 있었다.

상세 분석

이 논문은 저자명 중복 해소라는 특수한 텍스트 분류 문제에 초점을 맞추어, 학습 데이터의 클래스 불균형이 실제 성능에 어떤 영향을 미치는지를 정량적으로 규명한다. 기존 연구에서는 부정 샘플이 긍정 샘플에 비해 수십 배 이상 많아지는 경우가 흔했으며, 이를 모두 사용해 모델을 학습시키는 것이 일반적인 관행이었다. 그러나 저자명 중복 해소는 피처가 제한적이고, 라벨링 비용이 높은 특성상 과도한 부정 샘플을 모두 활용하는 것이 계산 효율성을 저해할 가능성이 있다.

실험 설계는 크게 세 단계로 이루어졌다. 첫째, DBLP, AMiner 등 공개된 저자 라벨링 데이터셋을 수집하고, 각 레코드에 대해 공동저자명, 논문제목 단어, 출판 연도 등 5가지 피처를 추출하였다. 둘째, 긍정(동일 저자)과 부정(다른 저자) 쌍을 생성하고, 부정 샘플을 1배, 5배, 10배, 15배, 20배 등 다양한 비율로 증강하였다. 셋째, 로지스틱 회귀, 나이브 베이즈, 랜덤 포레스트 세 모델을 동일한 하이퍼파라미터 설정 하에 학습시키고, 정확도, 정밀도, 재현율, F1-score 등 다중 평가 지표를 통해 성능 변화를 측정하였다.

결과 분석에서 가장 눈에 띄는 점은 로지스틱 회귀와 나이브 베이즈가 부정 샘플 비율 1:1에서도 거의 포화된 성능을 보였으며, 부정 샘플을 추가로 늘려도 성능 향상이 미미하거나 오히려 감소하는 경우가 있었다는 것이다. 이는 두 모델이 선형 혹은 확률적 경계에 의존하기 때문에, 과도한 부정 샘플이 모델의 결정 경계를 왜곡시키지 않는다는 점을 시사한다. 반면 랜덤 포레스트는 부정 샘플을 1:10~1:15 정도까지 늘렸을 때 가장 큰 성능 향상을 기록했으며, 그 이후에는 포화 현상이 나타났다. 이는 앙상블 기반 모델이 다수의 트리를 통해 복잡한 비선형 관계를 학습하면서도, 일정 수준 이상의 부정 샘플이 다양성을 제공해 과적합을 방지하는 메커니즘으로 해석될 수 있다.

또한, 부정 샘플을 과도하게 포함할 경우 학습 시간과 메모리 사용량이 급격히 증가한다는 실험적 증거도 제시되었다. 특히 랜덤 포레스트는 트리 수가 고정된 상황에서 부정 샘플이 10배를 초과하면 학습 시간이 2배 이상 늘어났으며, 이는 실제 서비스 환경에서 실시간 혹은 대규모 배치 처리 시 큰 제약이 된다. 따라서 연구자는 “필요 최소한의 부정 샘플만을 선택적으로 사용함으로써 성능 저하 없이 효율성을 크게 개선할 수 있다”고 결론짓는다.

이 논문의 의의는 두 가지로 요약할 수 있다. 첫째, 저자명 중복 해소와 같이 라벨링 비용이 높은 도메인에서 데이터 불균형 문제를 단순히 “모두 사용”하는 것이 최선이 아니라는 점을 실증적으로 보여준다. 둘째, 모델별로 최적의 부정 샘플 비율이 다르다는 사실을 밝혀, 연구자와 실무자가 모델 선택과 데이터 샘플링 전략을 보다 정교하게 설계할 근거를 제공한다. 향후 연구에서는 부정 샘플을 선택적으로 샘플링하는 전략(예: 어려운 음성 샘플 중심 추출)이나, 비용 민감 학습 기법을 결합해 더욱 효율적인 저자명 중복 해소 파이프라인을 구축할 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기