평면 라벨만으로 중첩 개체 인식 배우기
초록
본 논문은 중첩 개체 인식(Nested NER) 학습에 필요한 고비용 다중 레벨 라벨 대신, 기존에 널리 사용되는 평면(Flat) 라벨만을 활용하는 네 가지 접근법을 제안하고 평가한다. 문자열 포함 매칭, 엔티티 손상(가짜 중첩 데이터 생성), 평면 중립화(잘못된 부정 신호 감소), 그리고 파인튜닝 모델과 대형 언어 모델(LLM)을 결합한 하이브리드 파이프라인을 적용한다. 러시아어 벤치마크 NEREL(29개 타입, 21% 중첩)에서 최종 결합 방법이 내부 엔티티 F1 26.37%를 달성해 완전 중첩 감독 대비 40%의 격차를 메웠다.
상세 분석
이 연구는 중첩 NER을 위한 라벨링 비용 문제를 근본적으로 해결하고자, 평면 라벨만으로도 충분히 중첩 구조를 학습할 수 있는지를 실험적으로 검증한다. 첫 번째 방법인 **문자열 포함 매칭(Inclusions)**은 기존 평면 엔티티의 표면 문자열이 다른 엔티티의 서브스트링으로 포함되는 경우를 자동으로 탐지해 가짜 내부 엔티티를 생성한다. 러시아어와 같이 형태소 변형이 빈번한 언어에서는 표면 문자열뿐 아니라 형태소 분석을 통해 얻은 레마 형태에서도 매칭을 수행해 추가적인 포함 관계를 포착한다. 두 번째 방법인 **엔티티 손상(Entity Corruption)**은 긴 엔티티 내부의 단어를 무작위 기호(숫자, 무의미 문자, 구두점 등)로 교체한 뒤, 손상된 문장을 모델이 예측하도록 하여 “손상된 부분이 사라진” 서브스팬이 유효한 엔티티일 가능성을 학습한다. 손상 위치를 시작, 중간, 끝, 무작위, 구문적 루트 등 다섯 가지로 다양화했으며, 실험 결과 **끝 위치 손상(end‑position corruption)**이 가장 일관된 성능 향상을 보였다. 세 번째 전략인 **평면 중립화(Flat Neutralization)**는 기존 평면 라벨 학습 시 내부 서브스팬을 모두 부정 샘플로 취급하는 문제를 해결한다. 단순히 모든 내부 서브스팬을 무시하는 대신, 포함 매칭을 통해 실제 엔티티 표면과 일치하는 서브스팬만을 ‘중립’으로 지정해 손실 함수에서 제외함으로써, 잘못된 부정 신호를 최소화한다. 네 번째 전략은 파인튜닝 + LLM 하이브리드이다. 먼저 파인튜닝된 Binder 모델이 외부(outer) 엔티티를 식별하고, 각 외부 엔티티 구간을 LLM에 전달해 내부(inner) 엔티티를 추론한다. LLM은 다중 샷 프롬프트와 유형별 예시를 활용해 러시아어 특화 모델(DeepSeek‑R1‑32B, RuAdapt‑Qwen2.5‑32B)로 구현했지만, 현재 LLM은 복잡한 중첩 구조를 일관되게 파악하는 데 한계가 있어 전체 F1는 높지만 내부 엔티티 성능은 파인튜닝만큼 뛰어나지 않았다. 실험은 NEREL 코퍼스를 기준으로 진행했으며, 각 방법을 개별 및 조합하여 평가했다. 포함 매칭만 적용했을 때 내부 F1가 3.84%에서 21.36%로 급증했으며, 엔티티 손상과 중립화를 추가하면 26.37%까지 상승했다. 이는 완전 중첩 라벨링 대비 약 40%의 격차를 메우는 수준이다. 결과는 특히 라벨링 비용이 높은 언어·도메인에서 평면 라벨만으로도 중첩 NER 모델을 구축할 수 있음을 시사한다. 또한, 손상 기호 선택, 손상 위치, 레마 기반 포함 매칭 등 세부 설계가 성능에 미치는 영향을 정량적으로 분석함으로써 향후 데이터 증강 및 학습 전략 설계에 유용한 지침을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기