토릭 문법을 이용한 새로운 통계적 자연어 모델링
문장을 직접 확률분포로 추정하는 대신, 문장 집합을 상태로 하는 마코프 체인을 정의하고, 고정된 토릭 문법 규칙을 이용해 상태를 재조합한다. 모든 상태가 재현(recurrent)하며, 각 재현 통신 클래스의 불변분포가 언어 모델이 된다. 이는 전통적인 n‑gram이나 확률적 CFG와는 다른 생성 메커니즘을 제공한다.
저자: Olivier Catoni, Thomas Mainguy
본 논문은 자연어를 “문장 집합(텍스트)” 위에 정의된 마코프 체인으로 모델링하는 새로운 통계적 프레임워크를 제시한다. 전통적인 방법이 개별 문장의 확률분포를 직접 추정하려는 반면, 저자들은 경험적 측정값 Pₙ (문장들의 무순서 집합)을 상태공간으로 삼고, 이들 사이를 전이시키는 마코프 커널 q_θ 를 정의한다. q_θ 는 현재 텍스트를 무작위로 분할하고, 사전에 정의된 문법 규칙에 따라 재결합함으로써 새로운 텍스트를 생성한다.
핵심 개념은 “토릭 문법”(toric grammar)이다. 토릭 문법은 표현식 E (열린 괄호
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기