터키어 반사대명사 결합을 통한 대형 언어모델 비교
초록
본 연구는 최신 대형 언어모델 두 종류, OpenAI의 체인‑오브‑쓰루(o1 Mini)와 트렌디올‑LLM‑7B‑base‑v0.1을 대상으로 터키어 반사대명사 kendi·kendisi 의 결합 현상을 평가한다. 100개의 최소쌍 문장을 만든 뒤, 문장‑수준 퍼플렉시티와 강제 선택(continuation) 방식을 결합한 평가 프로토콜을 적용했다. 결과는 트렌디올‑LLM이 약 70 %의 경우 지역(클라우스‑내) 선행사를 선호하는 반면, o1 Mini는 지역·비지역 선택을 거의 동등하게 보여, 체인‑오브‑쓰루 방식이 결합 민감도에 큰 영향을 미치지 않음을 시사한다.
상세 분석
이 논문은 언어학적 이론과 최신 인공지능 평가 방법을 교차시킨 점에서 의미가 크다. 첫째, 터키어 반사대명사 kendi 와 kendisi 는 형태적 차이와 의미적 확장성 때문에 전통적인 바인딩 이론에서 서로 다른 구문적·담화적 제약을 가진다. kendi 는 일반적으로 ‘클라우스‑내’ 원칙에 따라 지역 선행사를 요구하지만, 실험적 연구에서는 특정 담화 상황에서 비지역 선행사도 허용된다는 복합적 현상이 보고된다. 반면 kendisi 는 형태상 3인칭 소유접미사 ‑si 를 포함해, 구조적 제한이 약하고 담화 수준까지 확장될 수 있다. 이러한 언어학적 배경을 바탕으로 저자들은 두 형태를 포함한 100개의 최소쌍을 설계했으며, 각 쌍은 ‘지역 선행사’와 ‘비지역 선행사’ 두 해석을 각각 지지하도록 미세하게 조정된 연속문을 제공한다.
둘째, 평가 방법론은 두 단계로 구성된다. 첫 단계는 각 모델이 전체 문장을 처리했을 때의 퍼플렉시티를 측정해 전반적인 언어 적합성을 평가한다. 두 번째 단계는 강제 선택(paradigm)으로, 모델에게 최소 차이만 있는 두 개의 연속문 중 어느 것이 더 자연스러운지 판단하도록 한다. 이 방식은 인간의 수용성 판단과 직접 비교할 수 있는 정량적 지표를 제공한다. 특히, 퍼플렉시티와 강제 선택을 동시에 고려함으로써 단순 확률 차이뿐 아니라 모델이 실제 ‘선택’ 과정에서 보여주는 편향을 포착한다.
셋째, 실험 결과는 두 모델 사이의 현저한 차이를 드러낸다. 트렌디올‑LLM‑7B‑base‑v0.1은 약 70 %의 경우 지역 선행사를 선택했으며, 이는 ‘구조적 근접성’에 대한 강한 편향을 의미한다. 이는 LLaMA‑2 기반의 대규모 사전학습 모델이 터키어 코퍼스에 충분히 적응했을 때, 구문적 힌트(예: 케이스 마킹, 동사 형태)만으로도 바인딩 규칙을 학습할 수 있음을 시사한다. 반면, o1 Mini는 지역·비지역 선택 비율이 거의 1:1에 가까워, 체인‑오브‑쓰루(CoT) 방식이 복잡한 다단계 추론을 지원하긴 하지만, 반사대명사 결합과 같은 미세한 구문적 현상에 대한 민감도를 크게 향상시키지는 못한다는 점을 보여준다.
넷째, 논문은 모델 아키텍처·학습 데이터·추론 전략이 언어학적 능력에 미치는 영향을 논의한다. 트렌디올‑LLM은 터키어 전용 데이터로 파인튜닝된 반면, o1 Mini는 다언어·다도메인 데이터와 CoT 프롬프트를 활용한다. 결과적으로, 언어‑특화 파인튜닝이 구조적 현상을 포착하는 데 더 효과적일 수 있음을 암시한다. 또한, CoT가 인간과 유사한 ‘추론 과정’을 제공한다고 해도, 그 과정이 반드시 구문적 규칙 학습과 연결되지 않을 가능성을 제기한다.
마지막으로, 연구는 향후 작업 방향을 제시한다. 첫째, 더 다양한 언어(예: 아프리카어, 아메리카 원주민 언어)와 더 복잡한 결합 현상을 포함한 평가 세트를 구축해 모델의 보편적 언어학적 능력을 검증할 필요가 있다. 둘째, CoT와 같은 추론 프레임워크를 바인딩과 같은 구조적 현상에 특화시키는 방법(예: 구문 트리 기반 프롬프트)도 탐색해야 한다. 셋째, 모델 내부 표현을 분석해 ‘지역성 편향’이 어느 레이어에서 형성되는지, 그리고 파인튜닝 단계에서 어떻게 강화되는지를 밝히는 것이 중요하다. 이러한 연구는 LLM이 인간과 같은 언어적 직관을 갖추기 위해 어떤 훈련·설계 전략이 필요한지를 구체화하는 데 기여할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기