BERT의 계층적 논증 구조 인코딩 분석
초록
이 연구는 소설 장르에서 추출한 800개의 자연문을 대상으로 BERT가 네 가지 핵심 논증 구조(결과적, 유발‑운동, 이중타동, 경로) 를 어떻게 층별로 표현하는지 조사한다. 다차원 스케일링·t‑SNE 시각화, 일반화 구별값(GDV), 선형 탐사(FDR) 및 어텐션 가중치 분석을 결합한 프레임워크를 사용해 초기 층에서 형식‑의미 정보가 형성되고, 중간 층에서 가장 명확한 군집이 나타나며, 후기 층에서도 유지됨을 확인한다. 특히 ‘경로’ 구조는 다른 세 구조와 구별되는 독특한 스키마를 형성한다. 어텐션 분석은 동사‑목적어 관계가 구조 구분에 핵심 역할을 한다는 점을 보여준다.
상세 분석
본 논문은 BERT의 내부 표현을 다차원적인 관점에서 정밀하게 탐색한다. 먼저, 영국국가코퍼스와 미국현대영어코퍼스의 소설 부분에서 각 논증 구조별 200문씩, 총 800문을 엄격히 선별하였다. 각 문장은 SpaCy 기반 의존 구문 분석 후 주어, 동사, 직접목적어, 간접목적어·전치사·‘way’ 명사 등 핵심 역할에 라벨을 부여하고, BERT‑base‑uncased 토크나이저로 서브워드화한다. 서브워드가 여러 개일 경우 첫 토큰의 임베딩을 대표값으로 사용해 각 역할당 768차원 벡터를 12개의 층에 걸쳐 추출하였다.
시각화 단계에서는 CLS 토큰 임베딩을 MDS와 t‑SNE로 2차원에 투사했으며, 층이 진행될수록 네 구조가 점차 구분되는 클러스터 형태로 나타났다. 특히 5~7층 사이에서 GDV 값이 가장 낮아(음수 절대값이 크게) 군집 구분도가 최고에 달했으며, 이후 층에서는 약간 완화되지만 여전히 명확한 구분을 유지한다. 이는 BERT가 초기 층에서 형태적 특징을, 중간 층에서 구조‑의미 통합을, 후기 층에서 고차원 의미 정보를 보존한다는 기존 연구와 일치한다.
선형 탐사에서는 CLS, VERB, OBJ 토큰에 대해 4‑class LinearSVC를 층별로 학습했으며, 2층 이후부터 거의 90% 이상의 정확도를 기록했다. 특히 동사 토큰이 가장 높은 선형 분리력을 보였으며, 이는 동사‑목적어 관계가 논증 구조를 정의하는 핵심 신호임을 시사한다.
어텐션 가중치 분석에서는 Fisher Discriminant Ratio(FDR)를 이용해 각 토큰 쌍의 어텐션 분포 차이를 정량화하였다. 결과는 동사와 직접목적어 사이의 어텐션이 층 3부터 급격히 증가하고, ‘경로’ 구조에서는 동사‑‘way’ 명사 사이 어텐션이 독립적으로 높은 값을 유지함을 보여준다. 이는 BERT가 어텐션 메커니즘을 통해 구조적 역할을 동적으로 진단한다는 중요한 증거다.
전체적으로, 논문은 BERT가 인간 언어학에서 제시하는 ‘구성(grammar)’ 개념을 계층적으로 구현하고 있음을 실증한다. 특히 ‘경로’ 구성은 다른 세 구성과 구별되는 독특한 스키마를 형성함으로써, 고차원 의미와 형태가 어떻게 결합되는지를 보여준다. 이러한 발견은 대규모 언어 모델을 인지언어학적 실험 플랫폼으로 활용할 가능성을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기