언어접촉의 구조적 흔적을 파악하는 파르시 언어 모델 분석
초록
본 논문은 단일 언어로 사전학습된 파르시 모델(ParsBER‑T)의 중간 표현이 다른 언어와의 역사적·현대적 접촉 현상을 얼마나 반영하는지 조사한다. 정보이론적 프로빙과 LAPE 기여도 분석을 통해 보편적 구문 정보는 접촉에 강인한 반면, 격·성별 등 페르시아에 존재하지 않는 형태론적 특성은 접촉 언어와의 구조적 유사성에 따라 강하게 인코딩됨을 밝혀냈다.
상세 분석
이 연구는 먼저 파르시 전용 인코더 모델 ParsBER‑T(12층 트랜스포머, hidden‑size 768)를 선택하고, Parallel UD(PUD) 코퍼스에 포함된 8개 대상 언어(터키어, 아랍어, 영어, 프랑스어, 독일어, 힌디어, 러시아어, 일본어)를 통해 언어 접촉 정도를 계층화하였다. 각 문장의 토큰을 모델에 입력하고, 모든 층의 임베딩을 추출한 뒤 두 가지 분석을 수행한다. 첫 번째는 Xu et al. (2020)의 변분 사용가능 정보(I_V)를 기반으로, 토큰 표현 X가 특정 언어적 속성 Y(언어 식별, UPOS, CASE, GENDER)를 얼마나 예측할 수 있는지를 정량화한다. I_V를 Y의 엔트로피 H(Y)로 정규화해 01 사이의 비율 ˆI_V를 얻음으로써, 높은 값은 파르시 모델이 해당 속성을 강하게 암시한다는 의미다. 두 번째는 Tang et al. (2024)의 LAPE 기법을 적용해 각 차원의 활성화 분포를 조건별(예: CASE 존재 여부)로 나누어 선택성 점수를 산출한다. 낮은 LAPE 점수는 특정 조건에 특화된 뉴런 집합을 의미하며, 이를 통해 정보가 몇 개의 차원에 집중되는지를 파악한다. 결과는 크게 세 가지 패턴을 보인다. 첫째, 모든 언어에 대해 UPOS와 같은 보편 구문 카테고리는 중간·상위 층에서 ˆI_V≈0.8 이상으로 높은 사용가능 정보를 유지했으며, LAPE 점수 역시 고르게 분포해 전 층에 걸쳐 넓게 인코딩됨을 확인했다. 이는 파르시 내부 구문 구조가 언어 보편성에 의해 강하게 정형화돼 있어, 접촉 언어와의 차이가 최소화된다는 점을 시사한다. 둘째, CASE와 GENDER와 같이 페르시아에 존재하지 않는 형태론적 특성은 접촉 강도가 높은 언어(터키어, 아랍어, 힌디어)에서만 의미 있는 ˆI_V(0.40.6)를 보였으며, LAPE 분석에서는 하위 층 몇몇 차원에 선택적으로 집중된 패턴이 나타났다. 이는 파르시 모델이 학습 데이터 내 차용·칼크 현상을 통해 비직접적인 형태론 정보를 습득했음을 의미한다. 셋째, 접촉이 거의 없는 일본어와 같은 언어는 CASE·GENDER에 대한 ˆI_V가 0.1 이하로 거의 검출되지 않았고, LAPE 점수도 전 층에 걸쳐 균일하게 낮아 정보가 분산되지 않음을 보여준다. 전체적으로, 접촉 효과는 형태론적 레벨에서 선택적으로 나타나며, 보편 구문은 언어 접촉에 대한 내성을 가진다. 연구는 또한 정보이론적 프로빙과 LAPE 기여도 분석을 결합함으로써, 모델 내부에서 어떤 층·차원이 특정 언어 현상을 담당하는지 정량적으로 파악할 수 있는 방법론적 틀을 제공한다. 이러한 접근은 전통적인 접촉 언어학에서 관찰하기 어려운 미세한 구조적 흔적을 신경망 내부에서 직접 검출할 수 있게 하여, 언어 변화와 접촉 현상을 컴퓨테이셔널하게 탐구하는 새로운 길을 연다.
댓글 및 학술 토론
Loading comments...
의견 남기기