언어 정보 에너지: 텍스트 이해의 물리적 모델

본 논문은 텍스트를 일정한 속도로 읽히는 단어 충동 시퀀스로 보고, 뇌가 이를 고차원 의미 단위로 조합하는 과정을 고전 시스템 이론으로 모델링한다. 언어 시스템 응답, 정보 에너지, 정렬 에너지 개념을 정의하고 수학적으로 분석한 뒤, 정보 에너지를 이용해 텍스트의 출판 연도 예측 및 텍스트 간 유사도 측정을 시연한다.

저자: James Ford

본 논문은 텍스트를 연속적인 ‘단어 충동(word impulse)’ 시퀀스로 간주하고, 인간 뇌가 이를 일정한 속도로 읽어 고차원 의미 단위로 조합하는 초기 과정을 고전적인 시스템 이론으로 모델링한다. 저자는 먼저 각 단어 w에 대해 충동 강도 I(w)를 정의한다. I(w)는 단어 길이(l(w)), 로그 빈도(log f(w)), 혹은 TF‑IDF와 같은 통계적 지표를 이용해 산출될 수 있으며, 이는 단어가 인지 시스템에 제공하는 정보량을 정량화한다. 다음으로, 인지 시스템 자체를 선형 시불변(LTI) 시스템으로 가정하고, 시스템의 임펄스 응답 h(t)를 설정한다. h(t)는 일반적으로 지수 감쇠 형태를 취해, 최근에 읽은 단어일수록 인지 부하가 크게 남고, 시간이 흐를수록 그 효과가 감소한다는 심리학적 근거를 반영한다. 이때 텍스트의 전체 인지 부하는 입력 충동 I(w_i)와 시스템 응답 h(t)와의 컨볼루션을 통해 R(t)=∑ I(w_i)·h(t−t_i) 로 표현된다. ‘정보 에너지(E)’는 R(t)의 제곱을 전체 읽기 구간

언어 정보 에너지: 텍스트 이해의 물리적 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기