레마와 의존구조가 밝히는 라이트버브 분류 신호
초록
본 논문은 터키어 라이트버브 구성(LVC)을 탐지하기 위해 입력 정보를 단계적으로 제한한 실험을 수행한다. 레마 기반 TF‑IDF·LogReg, 레마 시퀀스로 학습한 BERTurk, UD 형태소·구문 정보만 이용한 문법 기반 LogReg, 그리고 전체 입력을 활용한 BERTurk 네 가지 모델을 비교한다. 제어된 진단 세트(무작위 부정, 비‑LVC 어휘 대조, LVC 긍정)에서 평가한 결과, 단순 형태소·구문 정보만으로는 LVC를 안정적으로 식별하기 어렵고, 레마 정보가 핵심적인 신호이지만 정규화 방식에 따라 성능이 크게 변동한다는 점을 밝혀냈다.
상세 분석
이 연구는 터키어와 같이 형태소가 풍부하고 복합 술어가 다수 존재하는 언어에서 라이트버브 구성(LVC)의 존재 여부를 판단하는 데 어떤 언어적 신호가 가장 결정적인지를 체계적으로 검증한다. 우선 9개의 터키어 UD 트리뱅크(총 82,884문장)에서 compound:lvc 의존관계를 활용해 약한 감독 데이터를 자동 추출하고, 인간 검증을 거쳐 최종 9,491개의 LVC 포함 문장을 확보하였다. 이후 입력을 네 단계로 제한하였다. ① 레마 시퀀스만을 남긴 TF‑IDF + Logistic Regression, ② 레마 시퀀스를 그대로 입력으로 BERTurk을 미세조정한 모델, ③ UD의 UPOS, DEPREL, MORPH 특징만을 집계한 bag‑of‑features + LogReg, ④ 전체 토큰(형태소·문맥 포함) 정보를 그대로 이용한 BERTurk이다.
평가용 진단 세트는 147문장(각 조건 49문장)으로 구성했으며, (1) LVC가 전혀 등장하지 않는 무작위 부정, (2) 동일한 라이트버브 레마를 사용하지만 문자 그대로의 동사‑명사 결합을 유지하는 비‑LVC 어휘 대조, (3) 실제 관용적 의미를 갖는 LVC 긍정이다. 이 세트는 어휘와 의미적 변이를 최소화하면서 모델이 어떤 신호에 의존하는지를 드러내도록 설계되었다.
실험 결과는 다음과 같다. 문법‑전용 LogReg은 무작위 부정은 높은 정확도로 구분하지만, 비‑LVC와 LVC를 구별하는 데는 F1 점수가 현저히 낮았다. 이는 형태소·구문 정보만으로는 관용적 의미와 문자 그대로의 의미를 구분하기에 충분치 않음을 의미한다. 반면 레마 기반 모델은 LVC 탐지에서 전반적으로 우수했으나, 레마 정규화(예: 어간 추출 vs. 표준 Lemma)와 클래스 임계값 설정에 따라 false‑negative 비율이 크게 변동했다. 특히 레마 TF‑IDF + LogReg은 어휘 대조에서 높은 정확도를 보였지만, LVC 긍정에 대한 민감도가 낮아 실제 관용적 사용을 놓치는 경향이 있었다. BERTurk을 레마 시퀀스로 학습한 경우는 문맥 정보를 활용해 어느 정도 보완했지만, 여전히 레마 정규화 방식에 따라 성능 편차가 존재했다. 전체 입력을 사용한 BERTurk은 가장 높은 전반적 F1를 기록했지만, 이는 풍부한 어휘·문맥 정보가 결합된 결과이며, “레마만”이라는 단일 표상이 존재하지 않음을 보여준다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 터키어와 같이 형태소가 복잡한 언어에서는 구문적 신호만으로는 라이트버브와 일반 동사‑명사 결합을 구분하기 어렵다. 둘째, 레마 정보는 핵심적인 단서이지만, 레마를 어떻게 정규화하고 모델에 제공하느냐에 따라 성능이 크게 좌우된다. 따라서 “레마‑전용” 접근법을 논의할 때는 정규화 파이프라인 자체를 명시하고, 다양한 정규화 버전을 비교하는 것이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기