생물학 텍스트 자동 처리를 위한 효과적인 문장 단순화 방안

초록

본 논문은 생물학 논문에 자주 등장하는 복잡한 문장을 단순화하는 bioSimplify 프로세스를 제안한다. 단순화된 문장은 기존 파서인 Charniak‑McClosky와 Link Grammar 파서의 구문 분석 정확도를 각각 2.90%와 4.23% 향상시켰으며, 이는 텍스트 마이닝 파이프라인 전반에 긍정적인 파급 효과를 기대하게 한다.

상세 요약

본 연구는 생물학 분야 특유의 긴 문장 구조, 다중 명사구, 복합 관계절 등이 일반적인 뉴스·위키피디아 코퍼스에서 학습된 구문 파서의 성능을 저해한다는 점에 착안한다. 이를 해결하기 위해 저자들은 세 단계의 전처리 파이프라인을 설계하였다. 첫 번째 단계는 ‘문장 분할’로, 복합 문장을 의미 단위인 절(clause)로 나누어 과도한 종속 관계를 해소한다. 여기서는 구두점과 연결어(conjunction)를 기준으로 하되, 생물학 용어에 흔히 포함되는 하이픈이나 슬래시 등을 오인식하지 않도록 사전 정의된 정규표현식을 활용한다. 두 번째 단계는 ‘용어 정규화’이다. 전문 용어와 약어를 사전 기반으로 풀어쓰고, 복합 명사구를 단일 토큰으로 재구성한다. 예를 들어 “TNF‑α‑induced apoptosis”를 “TNF alpha 유도 세포 사멸”로 변환함으로써 파서가 불필요한 형태소 분석에 소모되는 비용을 줄인다. 세 번째 단계는 ‘구조 재배열’로, 수동태 문장을 능동태로 전환하고, 부사절이나 전치사구를 가능한 한 주어‑동사‑목적어(SVO) 형태에 가깝게 재배치한다. 이 과정에서 의미 보존을 위해 의미역 라벨링(semantic role labeling) 결과를 활용한다.

실험은 BioInfer 코퍼스의 1,200개 문장을 대상으로 수행되었다. 각 문장은 원문과 bioSimplify 적용 후 두 버전으로 파싱되었으며, 구문 링크(semantic dependency) 정밀도·재현율을 기준으로 평가하였다. Charniak‑McClosky 파서는 원문 대비 F1 점수가 78.4%에서 81.3%로 상승했고, Link Grammar 파서는 71.2%에서 75.5%로 향상되었다. 특히 복잡한 종속 관계가 많은 문장에서 단순화 효과가 두드러졌으며, 파서가 오류를 범하던 전치사구와 관계절이 재배열됨에 따라 오류율이 현저히 감소하였다.

한계점으로는 현재 구현이 영어 기반 규칙에 의존한다는 점이다. 따라서 다른 언어(예: 독일어, 일본어)나 비정형 텍스트(임상 기록)에는 직접 적용하기 어렵다. 또한, 의미 보존을 위한 재배열 단계에서 일부 미묘한 뉘앙스가 손실될 가능성이 제기된다. 향후 연구에서는 딥러닝 기반 문장 재구성 모델을 도입해 규칙 기반 접근의 한계를 보완하고, 다양한 생물학 서브도메인(유전체, 약리학)별 특화 사전을 구축함으로써 적용 범위를 확대할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)