ILP를 활용한 네덜란드 음절구조 학습
초록
본 논문은 인덕티브 로직 프로그래밍(ILP) 시스템 Aleph을 이용해 네덜란드어 단음절 단어의 음소 배열 규칙을 자동으로 학습한다. 두 가지 배경지식 설계(IP A 기반과 언어‑특화 특징 계층)를 비교 실험하고, 각각의 정밀도·재현율을 평가한다. 결과는 배경지식의 풍부함이 학습된 이론의 품질에 직접적인 영향을 미침을 보여준다.
상세 분석
이 연구는 음운론적 규칙을 논리적 Horn 절 형태로 귀납하는 과정을 상세히 제시한다. 먼저 ILP의 핵심 연산인 포화(saturation)와 축소(reduction)를 Aleph 구현에 맞춰 설명하고, 학습 대상이 되는 단음절 단어를 ‘접두사(prefix)’와 ‘접미사(suffix)’ 두 개의 단일 술어로 분리한다. 긍정 예시는 CELEX 데이터베이스에서 추출한 5 095개의 단음절 형태를 전처리해 prevocalic·postvocalic 자음 클러스터와 모음(또는 이중모음)으로 나눈 뒤, 각각을 prefix/3, suffix/3 형태의 사실로 변환한다. 부정 예시는 동일한 C³VC⁵ 템플릿을 따르는 무작위 문자열을 생성하고, 긍정 규칙으로부터 파생될 수 없는 최소 부분 문자열을 찾아 부정 사실로 만든다. 이렇게 함으로써 부정 데이터가 음소‑클러스터 길이에 따라 균형을 이루도록 설계하였다.
배경지식은 두 단계로 확장된다. 첫 번째 실험에서는 국제음성기호(IP A)에서 정의된 3차원(조음 위치·방법·성대 진동) 및 모음의 4차원(전·중·후·길이·원순성) 특성을 각각 ‘manner’, ‘place’, ‘voicing’ 등 개별 술어로 구현하였다. 이 경우 학습된 이론은 199개의 prefix와 147개의 suffix 규칙을 포함했으며, 테스트 셋에 대해 재현율 99.3 %, 정밀도 89.4 %를 기록했다. 그러나 일부 외래어와 짧은 모음이 닫히지 않는 경우 등 예외 처리에 한계가 있었다.
두 번째 실험에서는 네덜란드어 특유의 음운 특징 계층을 도입했다. 여기서는 ‘Consonant’, ‘Sonorant’ 등 상위 범주와 ‘Labial’, ‘Nasal’, ‘Laryngeal’ 등 하위 특성을 계층적으로 정의하고, 이를 feature‑value 벡터로 결합해 규칙을 표현하였다. 이 배경지식 하에서 학습된 모델은 13개의 prefix와 93개의 suffix 규칙만으로 압축되었으며, 테스트에서 긍정 예시 94.2 %를 수용하고 부정 예시 7.4 %만을 오분류했다. 특히 ‘prefix anything before a single consonant before a nucleus other than schwa’와 같은 일반화된 규칙이 도출되었으며, 부정 사례는 주로 외래어와 드물게 나타나는 짧은 개방 음절에 국한되었다.
두 실험 모두 평가 함수로 라플라스(Laplace) 점수를 사용했으며, 과적합을 방지하기 위해 학습 정확도 목표를 85 %로 설정하였다. 결과는 배경지식이 구체적일수록 학습된 규칙이 간결해지고 일반화 성능이 향상됨을 명확히 보여준다. 또한 ILP가 논리적 귀납을 통해 언어학적 선험 지식을 효과적으로 활용할 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기