전이동사 행렬 구성과 의미 구별 실험
초록
DisCoCat 프레임워크에서 전이동사를 행렬로 표현하는 세 가지 방법을 제안하고, 영국국립코퍼스 기반의 의미 구별 과제에서 각 방법의 성능을 비교 평가한다.
상세 분석
본 논문은 의미론적 조합을 위한 범주론적 모델인 DisCoCat(분산 의미와 논리적 조합을 결합) 안에서, 전이동사의 행렬 표현을 어떻게 구축할 것인가에 초점을 맞춘다. 기존 연구에서는 동사의 의미를 ‘주어‑목적어 쌍’의 크론커 곱을 모두 합산하는 간접 방법을 사용했으며, 이는 주어와 목적어 벡터의 공동 발생 빈도를 통해 행렬 원소를 추정한다. 저자들은 이와는 별도로, 전이동사의 r‑차원 단어 벡터를 직접 r×r 행렬로 변환하는 세 가지 인코딩 방식을 설계하였다. 첫 번째는 벡터를 대각선에 배치하고 비대각선에 0을 채우는 0‑diag 방식이며, 두 번째는 비대각선에 1을 채우는 1‑diag 방식이다. 세 번째는 벡터 자체와의 크론커 곱(v⊗v)으로 완전한 행렬을 구성하는 방법이다.
각 인코딩은 의미 조합 단계에서 행렬‑벡터 곱 ⊙(성분별 곱) 연산을 통해 ‘주어⊗목적어’ 행렬에 적용된다. 0‑diag는 대각선 외 정보를 전부 소거해 주어‑목적어 간의 교차 상호작용을 무시하고, 1‑diag는 대각선 외에 상수 1을 삽입해 최소한의 상호작용을 허용한다. 반면 v⊗v는 벡터 성분 간 모든 쌍을 행렬 원소에 반영하므로, 주어와 목적어의 모든 조합에 동사의 의미가 전파된다.
실험은 영국국립코퍼스(BNC)에서 추출한 10개의 전이동사와 각각 두 개의 의미(동음이의어) 쌍을 이용해 200개의 문장 쌍을 구성한 뒤, 인간 평가자들의 1‑7 점 척도 판단과 모델이 산출한 코사인 유사도(0‑1) 사이의 Spearman ρ를 측정하였다. Baseline은 동사 벡터만 비교하는 비조합적 방법이며, UpperBound은 인간 평가자 간 일치도를 나타낸다. 결과는 다음과 같다:
- 간접 행렬(주어‑목적어 쌍 합산) ρ = 0.73/0.72 (High/Low)
- 0‑diag ρ = 0.67/0.59
- 1‑diag ρ = 0.86/0.85
- v⊗v ρ = 0.34/0.26
놀랍게도 v⊗v 방식이 가장 높은 상위 점수를 기록했으며, 통계적으로 유의미(p < 0.05)하였다. 이는 행렬에 비대각선 정보를 풍부히 채워 넣을수록 전이동사의 관계적 의미가 더 잘 포착된다는 가설을 뒷받침한다. 또한 1‑diag가 간접 방법보다 우수한 성능을 보인 점은, 최소한의 비대각선 값이라도 의미 전달에 기여한다는 점을 시사한다.
이러한 결과는 DisCoCat에서 동사의 행렬 표현을 설계할 때, 단순히 주어‑목적어 빈도 합산에 의존하기보다, 동사 자체 벡터를 고차원 관계 공간으로 확장하는 것이 의미 조합 정확도를 크게 향상시킬 수 있음을 보여준다. 향후 연구에서는 더 정교한 인코딩(예: 학습된 변환 행렬, 비선형 매핑)과 대규모 코퍼스에서의 일반화, 그리고 다른 언어·문법 구조에 대한 적용 가능성을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기