질병 인텔리전스를 위한 온톨로지 기반 정보 추출

초록

본 논문은 전 세계 다양한 출처에서 산재된 질병 관련 데이터를 통합·분석하기 위해 온톨로지를 활용한 이론적 프레임워크를 제시한다. 기존 질병 분류와 인간·감염체 유전 정보를 결합하고, 증상‑질병·약물효과‑증상 매핑을 구현함으로써 빠르게 변이하는 전염병을 기계가 이해할 수 있는 형태로 저장·검색한다. 또한 분류 체계에 없지만 유전 정보가 존재하는 미확인 병원체도 식별·연계할 수 있어 연구자와 의료진에게 실시간 질병 인텔리전스를 제공한다.

상세 분석

이 연구는 질병 인텔리전스(DI)의 핵심 과제인 ‘분산된 지식의 수집·통합·활용’에 초점을 맞추고 있다. 기존의 전통적 데이터베이스는 질병명, 발생 지역, 발병 시기 등 정형화된 메타데이터에 의존하지만, 급변하는 전염병 상황에서는 비정형 텍스트, 임상 보고서, 유전체 서열 등 이질적인 정보가 다량 생성된다. 논문은 이러한 이질성을 극복하기 위해 OWL(Web Ontology Language) 기반의 온톨로지를 설계한다는 점에서 의미가 크다.

첫 번째 핵심은 ‘다중 계층 구조’를 도입한 점이다. 최상위 클래스는 ‘Disease’, ‘Pathogen’, ‘HumanGene’, ‘Drug’ 등으로 정의하고, 하위에 ‘InfectiousDisease’, ‘NonInfectiousDisease’, ‘ViralAgent’, ‘BacterialAgent’ 등 세분화된 개념을 배치한다. 각 클래스는 ‘hasSymptom’, ‘causes’, ‘interactsWith’, ‘hasGeneticMarker’와 같은 객체 속성을 통해 상호 연결된다. 이를 통해 증상‑질병 매핑, 약물‑증상 상호작용, 유전 마커‑질병 연관성을 하나의 그래프 구조 안에 통합한다.

두 번째로, 기존 질병 분류 체계(예: ICD, SNOMED CT)와 최신 유전체 데이터베이스(NCBI, Ensembl)를 온톨로지에 매핑한다. 이중 매핑은 ‘equivalentClass’와 ‘sameAs’ 어노테이션을 활용해 구현되며, 결과적으로 질병 명칭이 다르게 표기되더라도 동일한 개념으로 인식된다. 특히 감염성 병원체의 경우, 전통적인 분류에 포함되지 않더라도 유전체 서열 정보가 ‘hasGeneticSequence’ 속성에 연결되면 온톨로지 내에서 새로운 개체로 자동 등록된다.

세 번째는 ‘추론 엔진’의 활용이다. 정의된 논리 규칙(예: “약물 X가 증상 Y를 완화한다면, 약물 X는 질병 Z에 효과가 있다”)을 기반으로 SPARQL 질의와 OWL Reasoner를 결합해 새로운 인사이트를 도출한다. 예를 들어, 특정 유전 변이가 여러 질병에 공통적으로 관여한다는 사실을 추론함으로써, 해당 변이를 타깃으로 하는 다중 적응 치료법을 제안할 수 있다.

마지막으로, 구현된 온톨로지는 웹 기반 인터페이스를 통해 공개된다. 사용자(의사, 연구자, 정책 입안자)는 직관적인 시각화 도구로 질병-증상-약물 네트워크를 탐색하고, SPARQL 콘솔을 이용해 맞춤형 질의도 수행한다. 이는 실시간으로 업데이트되는 전 세계 보고서와 유전체 데이터 스트림을 온톨로지에 지속적으로 반영함으로써, ‘지식의 최신성’과 ‘접근성’ 두 마리 토끼를 잡는다.

전체적으로 이 논문은 온톨로지라는 형식적 지식 표현 수단을 통해 질병 인텔리전스의 데이터 이질성, 최신성, 연결성 문제를 체계적으로 해결하고, 추론 기반 의사결정 지원 시스템으로 확장 가능한 기반을 제시한다는 점에서 학술적·실용적 가치를 동시에 제공한다.