LLM이 보여주는 문법성 판단 주어보조동사 전위와 기생 공백을 통한 구조 민감성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어모델(GPT‑4, LLaMA‑3)이 전통적인 생성문법의 핵심 사례인 주어‑보조동사 전위와 기생 공백(parasitic gap) 현상을 인간과 유사하게 구분할 수 있는지를 실험한다. 80개의 최소쌍 문장을 제시하고 1‑5점의 수용도 평가를 유도한 결과, 모델들은 영어에서는 거의 완벽에 가까운 정확도를 보였으며, 노르웨이어에서도 전위와 기생 공백에 대해 높은 민감성을 나타냈다. 다만, 병렬 추출(A‑TB)과 같은 대칭 구조에서는 언어별 성능 차이가 크게 나타났다. 연구는 LLM이 표면 형태만으로도 구조적 일반화를 학습할 수 있음을 시사한다.

상세 분석

이 연구는 두 가지 전통적인 생성문법 테스트를 선택했다. 첫 번째는 주어‑보조동사 전위(yes/no 질문에서 매트릭스 보조동사만 이동해야 함)로, 이는 문장 내 구성 경계(boundary)를 인식하는 능력을 평가한다. 두 번째는 기생 공백(parasitic gap)으로, 라이선싱 갭(wh‑movement)과 종속적인 공백 사이의 계층적 라이선스 관계를 검증한다. 실험 설계는 각 현상마다 문법적/비문법적 최소쌍을 1–5점 척도로 평가하도록 LLM에 프롬프트를 제공했으며, 영어와 노르웨이어 두 언어에 대해 80개의 문장 세트를 구축했다.

모델 선택은 최신의 instruction‑tuned 버전인 GPT‑4와 Meta의 LLaMA‑3(405B)이다. 두 모델 모두 대규모 사전학습 후 인간 지시를 반영하도록 미세조정되었으며, 이는 기존의 사전학습만 수행한 모델보다 인간의 수용도와 더 높은 상관관계를 보이는 것으로 알려져 있다. 결과는 다음과 같다.

주어‑보조동사 전위: 영어에서는 GPT‑4가 100% 정확도를 기록했으며, LLaMA‑3도 거의 동일한 수준을 보였다. 노르웨이어에서도 78% 수준으로 높은 일치도를 유지했지만, 일부 복합절에서 보조동사 위치를 잘못 판단하는 오류가 있었다. 이는 두 언어 모두에서 구문 경계 인식이 비교적 쉬운 구조적 신호(보조동사의 위치, 절 구분자 등)에 크게 의존함을 의미한다.
기생 공백: LP(라이선싱 갭 앞)와 PL(기생 공백 앞) 두 유형 모두에서 모델은 거의 완벽에 가까운 성능을 보였다. 특히 GPT‑4는 영어에서 100%, 노르웨이어에서도 높은 정확도를 기록했으며, LLaMA‑3도 전반적으로 일관된 판단을 내렸다. 중요한 점은 모델이 “both gaps unfilled”와 같은 정상적인 형태를 5점에 가깝게 평가하고, “gap filled” 변형을 1점에 가깝게 낮게 평가함으로써, 단순한 선형 토큰 순서가 아니라 계층적 라이선스 조건을 내부적으로 반영하고 있다는 증거가 된다.
A‑TB(병렬 추출): 이 현상은 두 언어 모두에서 모델 성능이 크게 떨어졌다. 영어에서는 GPT‑4가 83% 정도의 정확도를 보였지만, 노르웨이어에서는 29%에 머물렀다. 이는 병렬 구조와 대칭 추출이 요구하는 복합적인 의존 관계가 현재 LLM의 어텐션 메커니즘이나 훈련 데이터의 빈도에 따라 불안정하게 학습될 가능성을 시사한다.

전체적으로 모델은 “구조적 민감성”을 보이는 것으로 판단된다. 특히 계층적 라이선스와 구문 경계 인식은 표면 형태만으로도 충분히 학습될 수 있음을 보여준다. 그러나 대칭성이나 복합적인 조정이 필요한 현상에서는 언어별 데이터 편향이나 모델 아키텍처의 한계가 드러난다. 연구는 LLM을 “구조적 프록시”로 활용해 인간 언어학 이론을 검증할 수 있는 새로운 방법론을 제시하며, 구조적 지식이 반드시 선천적이거나 명시적 규칙에 의존하지 않아도 통계적 학습을 통해 부분적으로 획득될 수 있음을 뒷받침한다.

또한, 논문은 LLM 자체를 인간과 동일한 인지 구조를 가진 존재로 보는 위험성을 경고한다. 모델이 보여주는 문법성 판단은 훈련 코퍼스에 내재된 통계적 패턴을 반영한 “출력 민감성”이며, 이는 인간이 내부화한 구문 트리와는 차이가 있다. 따라서 LLM을 이용한 실험 결과는 “구조가 존재한다”는 결론보다는 “구조적 일반화가 데이터로부터 학습 가능하다”는 결론에 더 가깝다. 이러한 관점은 언어 습득 이론에서 ‘통계적 학습 vs. 선천적 보편문법’ 논쟁에 새로운 실증적 근거를 제공한다.

LLM이 보여주는 문법성 판단 주어보조동사 전위와 기생 공백을 통한 구조 민감성

초록

상세 분석

댓글 및 학술 토론

의견 남기기