RNN 기반 탐욕적 구문 분석과 단어 합성의 공동 학습
초록
본 논문은 단어와 구문 태그를 연속 벡터로 표현하고, 이를 재귀 신경망(RNN)으로 결합해 탐욕적으로 구문 트리를 구축하는 모델을 제안한다. 구문 노드와 그 하위 서브트리를 동시에 학습함으로써 기존 PCFG 기반 파서와 동등한 F1 점수를 유지하면서도 높은 처리 속도를 달성한다.
상세 분석
이 연구는 두 가지 핵심 아이디어를 결합한다. 첫째, 각 단어와 구문 태그를 고정 차원의 연속 벡터로 임베딩하고, 이러한 임베딩을 재귀적으로 합성해 트리의 각 노드에 대한 의미‑구문 혼합 표현을 만든다. 합성 연산은 “C_k”라 명명된 선형 변환‑비선형 활성화 구조로, k개의 자식 노드(최대 5~7개) 를 입력받아 동일 차원의 벡터를 출력한다. 이렇게 얻어진 노드 벡터는 이후 단계에서 다시 입력으로 사용되며, 파싱 과정 전체가 하나의 순환 구조 안에서 진행된다.
둘째, 파싱 자체를 “슬라이딩 윈도우 BIOES 태거”로 구현한다. 현재까지 구성된 노드들의 벡터와 해당 태그 임베딩을 일정 길이(K) 만큼의 컨텍스트 창으로 결합하고, 두 층의 전결합 신경망을 통과시켜 각 위치에 가능한 BIOES‑프리픽스 구문 라벨의 점수를 산출한다. 동적 프로그래밍을 이용해 BIOES 규칙을 강제함으로써 라벨 시퀀스의 일관성을 확보한다.
탐욕적 전략은 매 반복마다 가장 높은 점수를 갖는 라벨링을 선택하고, 선택된 라벨에 따라 “C_k” 합성 모듈을 호출해 새로운 노드 벡터를 생성한다. 이 과정이 트리의 최상위 노드가 형성될 때까지 반복되며, 파싱 단계와 벡터 합성이 동시에 학습된다. 손실 함수는 전체 트리 구조에 대한 크로스 엔트로피이며, 역전파를 통해 단어 임베딩, 태그 임베딩, 합성 매트릭스, 태거 파라미터가 모두 공동 최적화된다.
실험에서는 WSJ(펜 트리뱅크) 코퍼스를 사용해 기존 최첨단 파서들과 비교했으며, F1 점수는 약 90% 수준으로 경쟁력을 보였다. 특히 탐욕적 접근에도 불구하고 파싱 속도가 크게 향상돼 실시간 처리에 유리하다. 또한, 합성된 노드 벡터는 의미‑구문 정보를 동시에 담고 있어 downstream 작업(예: 의미역 라벨링, 문장 임베딩)에도 활용 가능하다는 부가 가치를 제공한다.
이 모델의 장점은 (1) 복잡한 PCFG 규칙이나 헤드‑워드와 같은 수작업 특성에 의존하지 않는다, (2) 단어와 구문 정보를 동일 차원 공간에 통합해 효율적인 재귀 합성이 가능하다, (3) 탐욕적 파싱에도 불구하고 높은 정확도와 빠른 실행 시간을 동시에 달성한다는 점이다. 반면, 합성 네트워크가 k에 따라 별도로 학습돼 파라미터 수가 늘어날 수 있으며, 매우 긴 구문 구조에서는 탐욕적 선택이 전역 최적을 놓칠 위험이 존재한다. 향후 연구에서는 빔 서치와 같은 약간의 전역 탐색을 결합하거나, 합성 모듈을 트랜스포머 기반으로 교체해 표현력을 강화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기