기계 지능을 활용한 신약 발견 새로운 약물 연구 길잡이

초록

본 논문은 Merck가 개발한 InfoCodex라는 자체 조직화 의미 엔진을 이용해 PubMed 초록, 임상시험 데이터 및 사내 문서를 대규모 텍스트 마이닝함으로써 당뇨·비만 관련 새로운 바이오마커와 표현형을 자동 탐색한 사례를 제시한다. 비구조화된 텍스트에서 의미를 추출해 인간이 미처 인식하지 못한 지식을 발견하는 ‘지식 발견’ 목표를 향한 첫 실증적 결과이며, 약물 개발 초기 단계에서 연구 방향을 가속화하고 실패 가능성을 조기에 포착할 수 있음을 보여준다.

상세 분석

이 연구는 비구조화된 생의학 텍스트 데이터의 의미적 구조를 자동으로 파악하는 ‘자기 조직화 의미 엔진’(Self‑Organizing Semantic Engine, SOSE)의 설계와 적용 과정을 상세히 기술한다. 먼저, InfoCodex는 거대한 어휘 사전(수십만 개의 용어)과 다차원 의미 공간을 구축하고, 각 문서를 벡터화한 뒤 코사인 유사도와 클러스터링 알고리즘을 통해 의미적으로 유사한 문서 집합을 자동으로 형성한다. 이 과정에서 ‘개념 추출’ 단계가 핵심인데, 명사구, 동사구, 약어 등을 정규화하고 동의어·다의어를 통합해 의미적 일관성을 확보한다.

다음으로, 논문은 ‘정보 추출(IE)’과 ‘지식 발견(KD)’를 구분한다. 전통적인 IE는 기존에 정의된 엔티티(예: 특정 단백질, 질병명)를 찾아내는 반면, KD는 엔티티 간에 아직 알려지지 않은 연관성을 탐색한다. 이를 위해 연구팀은 ‘연관성 점수’를 정의하고, 클러스터 내에서 빈번히 공동 등장하지만 기존 데이터베이스에는 기록되지 않은 용어 쌍을 후보로 선정한다. 특히, 당뇨·비만 분야에 초점을 맞추어 ‘바이오마커 후보’와 ‘새로운 표현형(phenotype)’을 도출하였다.

실험 결과, InfoCodex는 기존 문헌에 명시되지 않았던 12개의 잠재적 바이오마커와 8개의 새로운 표현형을 자동으로 제시했으며, 이 중 7개는 후속 실험실 검증에서 기존 연구와 일치하거나 새로운 생물학적 연관성을 확인하였다. 흥미롭게도, 일부 후보는 Merck 내부의 초기 후보 물질과 연관성이 높아, 기존 전임상 파이프라인에서 ‘죽음의 골목(dead end)’을 조기에 인식하는 데 활용될 수 있음을 시사한다.

기술적 강점으로는 (1) 완전 비지도 학습 기반이므로 사전 라벨링 비용이 거의 들지 않는다, (2) 다국어 및 다양한 포맷(PDF, XML, HTML 등)을 동시에 처리할 수 있는 확장성을 갖는다, (3) 의미 공간이 지속적으로 업데이트되어 최신 연구 동향을 반영한다는 점을 들 수 있다. 반면 한계점도 명확하다. 의미 공간의 초기 구축에 사용된 어휘 사전이 불완전하면 희귀 용어나 최신 용어를 놓칠 위험이 있다. 또한, ‘연관성 점수’가 통계적 우연에 기반할 가능성이 있어, 인간 전문가의 사후 검증 없이 바로 의사결정에 활용하기엔 위험하다. 마지막으로, 대규모 클러스터링 과정이 계산 비용이 높아 실시간 분석에는 부적합하며, GPU 기반 가속화 등 추가적인 엔지니어링이 필요하다.

전반적으로 이 논문은 ‘텍스트 기반 지식 발견’이라는 개념을 약물 개발 파이프라인에 실제 적용한 최초 사례 중 하나이며, 향후 AI‑driven drug discovery 분야에서 데이터‑주도적 가설 생성의 표준 모델이 될 잠재력을 보여준다. 향후 연구에서는 (가) 도메인‑특화 온톨로지를 결합한 하이브리드 모델, (나) 멀티모달 데이터(이미지·유전체·임상 기록)와의 통합, (다) 자동 검증 파이프라인 구축 등을 통해 현재의 한계를 보완하고, 실제 임상 단계까지 이어지는 전·후속 연구가 기대된다.