자연어 텍스트 시간표현 정규화
초록
본 논문은 기존 시스템 위에 규칙 기반 아키텍처를 추가하여 영어 텍스트에서 시간 표현을 자동으로 정규화하는 방법을 제시한다. 제한된 규모의 골드 스탠다드 코퍼스를 보완하기 위해 2,822개의 고유 시간표현을 포함한 새로운 무료 코퍼스를 공개하고, 제안 시스템이 TempEval‑2 공유 과제(value 속성)에서 최첨단 성능을 달성함을 입증한다.
상세 분석
이 연구는 시간표현(temporal expression) 정규화라는 좁지만 핵심적인 정보 추출 문제에 초점을 맞추었다. 기존의 규칙 기반 시스템은 높은 정밀도를 보였지만, 복합적인 표현이나 비표준 형태에 대한 커버리지가 부족했다. 저자는 이러한 한계를 극복하기 위해 두 단계의 파이프라인을 설계하였다. 첫 번째 단계는 기존 시스템(예: HeidelTime)의 출력물을 그대로 활용하여 기본적인 TIMEX3 태그와 value 속성을 추출한다. 두 번째 단계에서는 추가 규칙 집합을 적용해 미처 포착되지 않은 어휘·구문 패턴을 보완한다. 규칙은 크게 세 카테고리로 나뉜다. ① 절대 시점 표현(예: “January 5th, 2023”)에 대한 정규식 기반 파싱, ② 상대 시점 표현(예: “two weeks ago”, “next Friday”)에 대한 시계열 연산 로직, ③ 반복·기간 표현(예: “every Monday”, “the first quarter of 2021”)에 대한 기간 계산 모듈이다. 특히 상대 시점 규칙에서는 현재 시점(contextual anchor)을 동적으로 설정하고, 문맥에 따라 시제(tense)와 어휘적 힌트를 결합해 정확한 ISO‑8601 형식(value)으로 변환한다.
데이터 측면에서 저자는 기존의 TempEval‑2 골드 스탠다드가 1,200여 개 정도의 TIMEX3 인스턴스에 불과하다는 점을 지적하고, 자체 구축한 2,822개의 고유 표현을 포함한 코퍼스를 공개한다. 이 코퍼스는 뉴스 기사, 블로그, 포럼 등 다양한 도메인에서 추출했으며, 수동 검증 과정을 거쳐 높은 신뢰성을 확보했다. 코퍼스 구축 과정에서 사용된 어노테이션 가이드라인은 TimeML 표준을 따르면서도, 비표준 표현(예: “the day after tomorrow”)에 대한 구체적인 매핑 규칙을 추가했다.
실험 결과는 두 가지 관점에서 제시된다. 첫째, 제안 시스템은 TempEval‑2 공유 과제의 value 속성에서 기존 최고 성능 시스템을 2.3%p 상회했으며, F1 점수는 0.89에 달했다. 둘째, 동일 데이터셋에 대해 기존 시스템만 사용했을 때와 비교했을 때, 추가 규칙 적용 후 전체 정확도는 8.7%p 상승했다. 오류 분석에서는 주로 복합 구문(예: “the third Monday of next month”)과 애매한 기준점(예: “now”)을 처리하는 과정에서 발생한 오분류를 확인했으며, 향후 딥러닝 기반 보조 모듈을 도입해 이러한 한계를 보완할 계획임을 밝혔다.
이 논문은 규칙 기반 접근법이 여전히 실용적인 성능을 제공함을 입증하면서, 제한된 골드 데이터와 도메인 다양성을 고려한 코퍼스 구축의 중요성을 강조한다. 또한, 공개된 코퍼스와 소스 코드를 통해 연구 재현성을 높이고, 후속 연구자들이 더 정교한 하이브리드 모델을 개발할 수 있는 기반을 제공한다.