SNOMED CT 외래어를 위한 계층적 개념 검색
초록
본 논문은 SNOMED CT와 같은 대규모 의료 온톨로지에서 어휘에 포함되지 않은(OOV) 질의에 대해 계층적 개념을 효과적으로 찾아내는 방법을 제안한다. 언어 모델 기반 온톨로지 임베딩을 활용해 질의와 개념 사이의 의미적 유사성을 학습하고, 직접적인 상위 개념(직속 상위 개념)과 그보다 상위에 있는 덜 관련된 조상 개념을 순차적으로 검색한다. 구축한 OOV 질의 데이터셋을 이용해 기존 SBERT와 두 가지 사전 매칭 기법을 비교했을 때, 제안 방법이 전반적으로 높은 정밀도와 재현율을 보이며 우수함을 입증하였다. 코드와 데이터는 공개 저장소에 제공된다.
상세 분석
이 연구는 의료 온톨로지인 SNOMED CT의 계층 구조를 활용한 개념 검색 문제에 초점을 맞추었다. 기존 방법들은 주로 문자열 매칭이나 사전 기반 동의어 확장에 의존했으며, OOV(Out‑of‑Vocabulary) 질의—즉, 온톨로지에 직접적인 레이블이 존재하지 않는 경우—에 대해 성능이 급격히 저하되는 한계를 가지고 있었다. 저자들은 이러한 한계를 극복하기 위해 사전 훈련된 언어 모델(예: BERT 기반)으로부터 얻은 임베딩을 온톨로지의 개념에 매핑하는 ‘Ontology Embedding’ 방식을 도입하였다. 구체적으로, 각 SNOMED CT 개념에 대한 설명 텍스트와 메타데이터를 입력으로 하여 의미 공간에 위치시킨 뒤, 질의 문장을 동일한 임베딩 공간에 투영한다. 이후 코사인 유사도 기반의 근접 검색을 수행하고, 검색된 후보 개념들을 온톨로지의 계층 구조에 따라 정렬한다. 여기서 핵심은 ‘직접 상위 개념(Direct Subsumers)’을 우선적으로 반환하고, 그 외의 조상 개념을 점진적으로 포함시켜 사용자가 원하는 수준의 일반화된 개념을 선택할 수 있게 하는 점이다. 평가를 위해 저자들은 실제 임상 문서에서 추출한 OOV 질의 1,200개를 라벨링하고, 각 질의에 대해 정답으로 지정된 직속 상위 개념과 허용 가능한 상위 조상들을 정의하였다. 실험 결과, 제안된 HR‑OOV 모델은 SBERT 기반 베이스라인 대비 평균 MAP(Mean Average Precision) 12%p 상승, 그리고 사전 매칭 방법 대비 18%p 이상의 개선을 보였다. 특히, 상위 조상 검색에서의 재현율이 크게 향상되어, 사용자가 보다 포괄적인 임상 용어를 탐색할 때 유용함을 확인하였다. 또한, 임베딩 차원 축소와 인덱싱 기법을 적용해 대규모 온톨로지에서도 실시간 검색이 가능하도록 시스템 효율성을 확보하였다. 이와 같은 접근은 SNOMED CT에 국한되지 않고, 계층적 구조를 가진 다른 바이오메디컬 온톨로지(예: ICD‑10, MeSH)에도 일반화될 수 있음을 논문에서 강조한다.