문장 모호성 해소를 위한 잠재 혼합 모델: LLM 서프리얼만으로는 부족

문장 모호성 해소를 위한 잠재 혼합 모델: LLM 서프리얼만으로는 부족
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 일시적 모호성을 가진 가든패스 문장을 이용해 눈추적, 자기주도 속도읽기, 양방향 자기주도 속도읽기, 메이즈 네 가지 독서 패러다임에서 인간의 읽기 행동을 설명하는 잠재 혼합 모델을 제안한다. 모델은 주의 여부, 가든패스 확률, 재분석 방식(숨은·공개·후행) 등을 명시적으로 구분하고, 비주의적 읽기와 추측을 포함한 혼합 분포를 통해 읽기 시간과 판단 데이터를 동시에 설명한다. 교차 검증 결과, GPT‑2 기반 서프리얼만을 이용한 단순 모델보다 예측 정확도가 현저히 높으며, LLM 서프리얼만만으로는 인간의 재분석 메커니즘을 충분히 포착하지 못함을 보여준다.

상세 분석

본 연구는 가든패스 현상을 정량적으로 해석하기 위해 다중범주 처리 트리(Multinomial Processing Tree, MPT) 기반의 잠재 혼합 모델을 설계하였다. 모델은 다섯 가지 혼합 요소를 가정한다. 첫 번째는 주의가 결여된 경우로, 읽기 시간은 낮은 변동성을 가진 로그정규분포를 따른다. 두 번째는 주의는 있지만 가든패스가 발생하지 않은 경우이며, 여기서는 기본 주의 비용(att cost)만이 추가된다. 세 번째부터 다섯 번째까지는 가든패스가 발생했을 때 각각 ‘숨은 재분석(covert)’, ‘숨은 재분석 후 추가 재분석 비용’, ‘후행 재분석(postpone)’, ‘회귀 재분석(regression)’을 포함한다. 각 비용 파라미터는 양수 제약을 두어 실제 인지적 부하를 반영하도록 설계했으며, σ1<σ2라는 가정으로 비주의적 읽기의 변동성이 더 작다고 전제한다.

잠재 과정은 총 일곱 개의 확률 변수(p_attentive, p_gp, p_overt, p_postpone, p_success_o/p_success_c, p_infer, p_base_regress)로 구성된다. 이들 변수는 참가자·문항·조건(콤마 유무) 간에 계층적(교차) 랜덤 효과를 허용한다. 특히 p_infer는 이해 질문에 대한 ‘예’ 응답이 실제 구문 해석과 무관하게 발생할 수 있음을 설명하기 위해 도입된 새로운 파라미터이며, 이는 기존 Paape & Vasisth 모델에 없던 혁신이다. 모델은 읽기 시간(핵심 영역 및 spillover 영역)과 이진 판단(수용/거부, 정답/오답) 데이터를 동시에 설명하는 다변량 구조를 갖는다. 판단 결과는 MPT에서 파생된 다항분포로 모델링되며, 각 경로의 확률은 잠재 과정의 곱으로 계산된다. 예를 들어 ‘yes + no regression’ 사건은 (비주의+추측)·(주의+가든패스+숨은 재분석 실패)·(주의+가든패스+숨은 재분석 성공+추론) 등 네 가지 경로의 합으로 표현된다.

비교 모델로는 GPT‑2 기반 서프리얼 값을 독립 변수로 사용한 선형 회귀 모델과, 서프리얼에 혼합 효과를 추가한 하이브리드 모델을 설정하였다. 교차 검증 결과, 잠재 혼합 모델은 모든 패러다임에서 평균 로그우도와 예측 정확도 면에서 서프리얼 기반 모델을 크게 앞섰다. 특히 눈추적 데이터에서는 회귀 비용(p_regress)이 높은 반면, BSPR에서는 회귀 비용이 낮게 추정되어, 각 패러다임의 물리적 제약(재읽기 가능 여부)이 모델 파라미터에 반영되는 것을 확인했다. 또한, 모델은 ‘가든패스가 전혀 일어나지 않은 경우’와 ‘가든패스가 발생했지만 재분석이 성공한 경우’를 구분함으로써, 기존 평균 RT 차이만을 이용한 분석이 놓치는 미세한 인지적 차이를 포착한다.

결과적으로, LLM 서프리얼만으로는 가든패스 문장의 ‘재분석 비용’과 ‘주의 결핍’이라는 비결정적 요소를 설명할 수 없으며, 인간 독자는 단순 확률 예측을 넘어 복합적인 인지 전략(스키핑, 추론, 회귀 등)을 동시 사용한다는 점을 실증적으로 뒷받침한다. 이는 심리언어학에서 오랫동안 주장된 ‘전용 재분석 메커니즘’의 존재를 통계적으로 검증한 첫 사례라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기