서브워드 임베딩을 활용한 룩셈부르크어 사용자 댓글 변이 탐지
초록
본 논문은 사전 정규화나 변이 사전 없이 원시 텍스트에 서브워드 임베딩을 학습하고, 코사인 유사도와 문자 n‑gram Jaccard 유사도를 결합해 변이군을 자동으로 추출하는 방법을 제시한다. 룩셈부르크어 사용자 댓글 140만 건을 대상으로 실험했으며, orthographic, morphological, lexical 등 7가지 변이 유형을 포괄하는 7백여 개의 변이군을 발견했다. 결과는 분포적 모델이 저자원·노이즈가 많은 환경에서도 의미 있는 변이 패턴을 드러낼 수 있음을 보여준다.
상세 분석
이 연구는 변이를 ‘노이즈’가 아니라 언어적 신호로 재해석하는 접근법을 제시한다. 핵심은 FastText 기반의 서브워드 임베딩을 원시 댓글 데이터에 그대로 학습함으로써, 낮은 빈도의 형태소나 비표준 철자도 문자 n‑gram 정보를 통해 의미 있게 벡터화한다는 점이다. 임베딩 차원은 100, 윈도우 5, 최소 빈도 10, 3~7그램을 사용했으며, skip‑gram 모델을 채택해 주변 단어 맥락을 강조한다. 학습 후에는 전체 어휘를 후보 어휘 집합 V 로 정의하고, 각 어휘를 시드로 삼아 top‑N 이웃을 코사인 유사도(≥0.73)와 Jaccard 유사도(≥0.73) 기준으로 필터링한다. 두 유사도 점수를 조화 평균한 ‘cohesion score’를 산출하고, 최소 군 크기(≥2)와 빈도 비율 제한(MAX_FREQ_RATIO=25)을 적용해 불필요한 군을 제거한다.
군 형성 방식은 ‘open mode’와 ‘strict mode’ 두 가지가 제공되는데, 본 논문에서는 연결 그래프를 구축하고 연결 요소를 추출하는 strict mode를 사용했다. 이때 DEGREE_CAP=200으로 그래프 확장을 제한해 과도한 연결을 방지한다. 또한 사용자 ID, 댓글 날짜 등 메타데이터를 차원(dimensions)으로 지정하면, 각 변이 형태가 등장한 고유 사용자 수(MIN_USERS=3)와 가장 빈번한 차원을 기록해 지역·시간·사용자 기반 분석이 가능하도록 설계되었다.
실험 단계에서는 1.42 백만 건의 RTL 댓글을 전처리 없이 스트리밍 방식으로 입력하고, 멘션(@)만 제거한 뒤 토큰화한다. 결과로 도출된 변이군은 자동 점수와 빈도 정보를 포함한 JSONL 파일과 요약 CSV 파일로 저장된다. 이후 연구자는 이 군을 수작업으로 검토해 7개의 변이 카테고리(orthographic, morphological, lexical, collocation, tokenisation, regional, other)로 라벨링하였다. 특히 orthographic 카테고리에서는 ‘laang/long’, ‘krng/srng/dng/êng/öng’ 등 공식 철자를 위반하거나 음성적 특성을 반영한 철자 변이를 포착했으며, morphological 카테고리에서는 ‘fëllen/fëllt/fëlle’와 같은 동사 활용 변이를, lexical 카테고리에서는 ‘méi/manner’와 같은 의미적 변이를 식별했다.
이 방법론의 장점은 (1) 사전 구축 비용 없이 대규모 비표준 텍스트에서 변이를 자동 추출한다는 점, (2) 코사인과 문자 n‑gram을 결합해 형태와 의미를 동시에 고려함으로써 정규화가 오히려 손실시킬 수 있는 사회언어학적 정보를 보존한다는 점, (3) 결과 군이 투명한 점수와 메타데이터를 포함해 정량·정성 분석 모두에 활용 가능하다는 점이다. 한계로는 파라미터 튜닝이 경험적이며, 군의 품질을 평가하기 위한 표준 벤치마크가 부족하다는 점, 그리고 매우 드문 형태는 여전히 군에 포함되지 않을 가능성이 있다는 점을 들 수 있다. 향후 연구에서는 자동 군 품질 평가 지표 개발과, 다른 저자원 언어에 대한 일반화 테스트가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기