위키피디아 인물 생애 궤적의 정밀 분류와 대규모 데이터 구축
초록
본 논문은 위키피디아에서 추출한 (인물, 연도, 장소) 삼중항과 그 문맥을 이용해 24가지 세분화된 생활 활동 유형을 분류하는 모델을 제안한다. 구문 그래프와 마스크 기반 어텐션을 텍스트 임베딩에 융합하고, LLM을 활용해 문장을 표준화하여 노이즈를 감소시켰다. 제안 모델은 84.5% 정확도를 달성했으며, 3세기에 걸친 589 193명의 3.8 백만 개 활동 레코드 데이터셋을 공개한다.
상세 분석
이 연구는 기존 연구가 출생·사망 등 제한된 활동 유형에만 초점을 맞춘 점을 넘어, 교육, 경력, 전쟁 참여 등 24개의 세분화된 활동을 포괄하는 새로운 라벨링 작업을 정의한다. 핵심 도전 과제는 (인물, 연도, 장소) 삼중항이 문장 내에서 산발적으로 위치해 있어 주변 노이즈 단어가 많다는 점이다. 이를 해결하기 위해 저자들은 SpaCy 기반의 구문 의존 그래프를 구축하고, 삼중항 간 최단 경로에 포함된 토큰을 추출해 ‘마스크 벡터’를 생성한다. 이 마스크는 BERT‑like 사전학습 언어 모델에 입력될 때, 그래프 상에서 삼중항과 직접 연결된 토큰만을 강조하도록 설계되어, 어텐션 메커니즘이 관련 정보를 효율적으로 집계하도록 유도한다.
구문 그래프 자체가 위키피디아 편집 스타일의 다양성으로 인해 일관성이 떨어질 수 있다는 점을 인식하고, GPT‑4 등 대형 언어 모델을 프롬프트 기반으로 활용해 문장을 재작성한다. 재작성 과정에서는 삼중항의 핵심 단어를 그대로 유지하면서 문장 구조를 표준화함으로써, 그래프 생성 시 불필요한 변형을 최소화한다. 이 과정은 자동 품질 검증 루프를 통해 재작성 실패 시 재시도하도록 설계돼 데이터 품질을 보장한다.
모델 아키텍처는 텍스트 임베딩과 구문 마스크 임베딩을 결합한 뒤, 최종 분류 헤드에 입력한다. 추가적으로, 클래스 간 경계 강화를 위해 감독 대비 손실(Supervised Contrastive Loss)을 도입했으며, 이는 동일 클래스 샘플 간의 임베딩 거리를 최소화하고, 서로 다른 클래스 간 거리를 확대한다.
실험에서는 2,826개의 수작업 라벨링 데이터(훈련/검증/테스트)를 사용해 베이스라인(단순 BERT, TextGCN, GatedGCN 등)과 비교했다. 제안 모델은 정확도 84.5%를 기록했으며, 특히 교육·경력·전쟁 등 복합적 의미를 담은 문장에서 기존 모델보다 평균 7~10%p 향상을 보였다. 오류 분석 결과, 여전히 희귀 활동(예: ‘구매·판매’, ‘전시·공연’)에서 데이터 불균형이 성능 저하 요인으로 작용함을 확인했다.
데이터 측면에서는 COSMOS 도구를 이용해 589,193명의 위키피디아 전기에서 3.8 백만 개의 (인물, 연도, 장소, 활동 유형) 레코드를 자동 추출하고, 공개하였다. 라벨링된 2,826개 샘플은 전체 데이터셋의 품질 검증용으로 제공되며, 향후 연구자는 이 데이터를 활용해 인간 이동성, 문화 중심지 변천, 직업 네트워크 등 다양한 사회과학 질문을 탐구할 수 있다.
본 논문의 주요 기여는 (1) 새로운 생활 활동 라벨링 체계와 대규모 데이터셋 구축, (2) 구문 그래프와 마스크 기반 어텐션을 결합한 SAM4LTC 프레임워크 제안, (3) LLM을 이용한 문장 표준화 기법을 통해 구문 노이즈를 효과적으로 감소시킨 점이다. 이러한 접근은 텍스트 기반 엔터티 추출 및 다중 라벨 분류 작업에 일반화 가능하며, 향후 역사·사회 과학 분야의 대규모 정량 분석에 중요한 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기