표준 문서에서 기술 정보 자동 추출: 온톨로지 기반 방법론과 ISO 15531 적용
초록
본 논문은 국제 표준화 과정에서 발생하는 용어 중복·불일치 문제를 해결하고자, 온톨로지를 활용한 의미론적 주석과 정보 추출 기법을 제안한다. ISO 15531 MANDATE 표준을 사례로 삼아 자동화된 용어 추출 파이프라인을 구축하고, 초기 실험 결과를 통해 사전 정의된 기술 사전 구축 가능성을 확인한다.
상세 분석
이 연구는 표준화 문서가 급증함에 따라 인간 전문가가 수작업으로 용어 정의를 관리하기 어려워지는 현실을 진단한다. 특히 ISO TC 184와 IEC TC 65가 담당하는 전기·제조 분야에서 “사용자”, “자원” 등 핵심 개념이 서로 다른 문서에 상이하게 정의되는 사례가 빈번히 발생한다. 논문은 이러한 문제를 해결하기 위해 세 단계의 방법론을 설계한다. 첫째, 도메인에 적합한 온톨로지를 선정·정제한다. 여기서는 ISO 15531과 연계된 제조·데이터 교환 분야의 기존 온톨로지(예: ISO 13584, STEP, IFC)를 메타모델링하여 핵심 개념과 관계를 계층화한다. 둘째, 텍스트 전처리·형태소 분석을 거친 후, 온톨로지 기반 의미론적 주석 도구(예: GATE, UIMA)를 적용해 문서 내 용어를 자동으로 매핑한다. 이 과정에서 동의어 사전, 약어 확장, 다의어 해소 규칙을 온톨로지에 삽입해 정확도를 높인다. 셋째, 주석된 결과를 RDF/OWL 형태로 저장하고 SPARQL 질의로 용어 간 연관성을 탐색한다. 실험에서는 ISO 15531 MANDATE 표준 본문 12개 문서를 대상으로 파일럿 테스트를 수행했으며, 수동 검증 결과 평균 정밀도 78 %, 재현율 71 %를 기록했다. 이는 기존 Excel 기반 관리 방식에 비해 30 % 이상 효율성을 향상시킨 것으로 해석된다. 또한, 추출된 용어 집합을 기반으로 사전 정의된 기술 사전을 구축하면, 신규 표준 초안 작성 시 기존 정의와의 일관성을 자동 검증할 수 있다. 그러나 온톨로지 커버리지가 부족한 경우 의미론적 매핑 오류가 발생하고, 다국어 표준(예: 프랑스어·영어 혼용)에서는 언어 모델의 추가 학습이 필요함을 지적한다. 전체적으로 이 논문은 온톨로지와 자연어 처리(NLP)를 결합한 표준 문서 자동화 파이프라인의 가능성을 실증적으로 보여주며, 향후 대규모 표준군에 대한 확장과 지속적인 온톨로지 업데이트 메커니즘 구축이 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기