방글라 문법 인식용 예측 파서 설계

본 논문은 방글라어 문장을 분석하기 위한 컨텍스트 프리 그래머(CFG)를 정의하고, 좌측 재귀를 제거한 후 좌측 팩터링을 적용한 예측 파서를 구현한다. 파싱 테이블을 구축하여 문법 오류를 탐지하고, 성공적인 파싱을 통해 방글라어 문법 검사 기반을 제공한다는 것이 핵심이다.

방글라 문법 인식용 예측 파서 설계

초록

본 논문은 방글라어 문장을 분석하기 위한 컨텍스트 프리 그래머(CFG)를 정의하고, 좌측 재귀를 제거한 후 좌측 팩터링을 적용한 예측 파서를 구현한다. 파싱 테이블을 구축하여 문법 오류를 탐지하고, 성공적인 파싱을 통해 방글라어 문법 검사 기반을 제공한다는 것이 핵심이다.

상세 요약

이 연구는 자연어 처리 분야에서 전통적인 컴파일러 이론을 방글라어에 적용한 사례로서, CFG 설계 단계에서 언어학적 특성을 충분히 반영했는지가 가장 큰 평가 포인트가 된다. 논문은 먼저 방글라어의 기본 어순(SOV)과 품사 조합을 기반으로 비단말 기호와 생산 규칙을 정의하고, 이후 좌측 재귀를 제거하기 위해 재귀적 규칙을 반복형으로 변환한다. 이 과정에서 좌측 팩터링을 적용해 동일한 선행 기호를 공유하는 여러 후보를 하나의 선택지로 통합함으로써 LL(1) 파싱 가능성을 확보한다는 점은 이론적으로 타당하지만, 실제 방글라어는 어미 변형, 조사 결합, 복합어 형성 등 복잡한 형태소 변이가 존재한다. 이러한 현상을 CFG에 모두 포괄하려면 규칙 수가 급증하고, 파싱 테이블의 충돌 가능성이 높아진다. 논문은 파싱 테이블을 수동으로 구축했으며, 터미널에 대한 엔트리가 없을 경우 문법 오류로 판단한다는 단순 오류 탐지 메커니즘을 제시한다. 이는 초보 단계의 문법 검사 도구로는 유용하지만, 문맥 의존적인 오류(예: 동사와 주어의 수 일치)나 의미적 부조화를 잡아내지는 못한다. 또한, 파서 구현이 Top‑Down 방식이므로 입력 길이가 길어질 경우 스택 오버플로우 위험이 존재하고, 백트래킹을 전혀 허용하지 않기 때문에 비표준 문장 구조에 대한 유연성이 떨어진다. 실험 부분에서는 제한된 수의 예제 문장을 대상으로 정확도를 보고했지만, 대규모 코퍼스에 대한 평가가 부재하고, 성능(시간·메모리) 분석도 미흡하다. 따라서 이 연구는 방글라어 문법을 형식화하고 파싱 테이블 기반 오류 탐지를 시연한 의의는 크지만, 실제 자연어 처리 시스템에 적용하기 위해서는 형태소 분석 전처리, 문맥 자유 문법을 넘어선 확장(예: LR, GLR 파서) 및 오류 복구 메커니즘이 추가돼야 한다는 점이 강조된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...