다중어표현 식별을 위한 경량 DeBERTa 기반 이진 토큰 분류와 언어학적 강화
초록
본 논문은 다중어표현(MWE) 전체 유형을 탐지하기 위해 토큰 단위 이진 START/END/INSIDE 분류를 도입하고, NP 청크와 의존구문 특징을 결합한 DeBERTa‑v3‑large 모델을 제안한다. 과도한 클래스 불균형을 완화하기 위한 오버샘플링을 적용해 CoAM 데이터셋에서 69.8% F1, STREUSLE에서 78.9% F1를 달성했으며, 파라미터 수는 대형 LLM(Qwen‑72B) 대비 165배 적게 사용한다.
상세 분석
이 연구는 기존 BIO 혹은 BILOU와 같은 다중 클래스 시퀀스 라벨링 방식이 MWE의 불연속성 및 다양한 유형을 포괄하기에 한계가 있음을 지적하고, 토큰당 START, END, INSIDE이라는 세 개의 독립적인 이진 라벨을 예측하도록 문제를 재정의한다. 이렇게 하면 각 토큰에 대해 O(n)의 선형 복잡도로 예측이 가능해지며, 스팬 기반의 O(n²) 탐색을 회피한다. 모델은 DeBERTa‑v3‑large를 기반으로 하며, 두 종류의 언어학적 특징을 추가한다. 첫째, spaCy를 이용해 명사구(NP) 내부·외부 여부를 16‑차원 임베딩으로 변환해 토큰 표현에 결합함으로써 명사형 MWE(NOUN)의 재현율을 크게 끌어올린다. 둘째, 전체 문장의 의존 경로 길이를 계산해 각 토큰에 32‑차원 임베딩으로 제공하고, 재구성 단계에서는 의존 거리 4를 초과하는 토큰 조합을 하드 제약으로 배제한다. 이러한 구문 정보는 특히 불연속적 MWE(예: “look … up”)를 탐지하는 데 효과적이다.
데이터 불균형 문제를 해결하기 위해 두 가지 증강 전략을 실험했는데, CoAM처럼 학습 데이터가 제한된 경우에는 MWE가 포함된 문장을 30% 비율로 오버샘플링하는 것이 가장 효율적이었다. 반면, STREUSLE처럼 규모가 큰 코퍼스에서는 의미적으로 유사한 토큰으로 교체하는 lexical substitution이 더 큰 성능 향상을 보였다.
실험 결과는 15가지 모델 변형에 대한 체계적 Ablation을 포함한다. 토큰‑레벨 이진 분류만 적용해도 BERT‑base span‑based 모델(53.7% F1) 대비 +5.2%p 상승했으며, DeBERTa‑large에 언어학적 특징을 결합했을 때는 연속 MWE뿐 아니라 불연속 MWE에서도 Recall이 23.3%→34.9%로 크게 개선되었다. 특히, 대형 모델에 오버샘플링을 결합한 DL T+lo가 CoAM에서 69.8% F1를 기록해 Qwen‑72B(57.8% F1)보다 12포인트 앞섰다. 파라미터 수는 165배 적어 실용적인 배포가 가능하다.
한계점으로는 현재 모델이 MWE 유형 라벨을 예측하지 않으며, 타입 예측을 위한 별도 단계가 필요함을 언급한다. 또한, 불연속 MWE의 정밀도가 25.9%에 머물러 오탐이 존재함을 오류 분석에서 확인한다. 향후 연구에서는 다중 태스크 학습으로 타입과 경계 예측을 동시에 수행하고, 더 정교한 하드 제약을 도입해 정밀도를 높이는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기