빅데이터 기반 약물 부작용 탐지를 위한 특징 행렬과 선택 기법
초록
본 연구는 영국 THIN 데이터베이스에서 추출한 대규모 의료 이벤트를 ‘특징 행렬’ 형태로 구조화하고, 다양한 특징 선택 알고리즘을 적용해 약물 복용 환자군에서 의미 있는 부작용을 자동으로 탐지한다. 아토르바스타틴, 알렌드론산, 메토클로프라미드 3종 약물에 대해 실험했으며, 기존 컴퓨터 기반 방법보다 높은 정확도와 재현율을 보였다. 검출된 ADR은 컴퓨터 분석 결과이므로 임상적 검증이 추가로 필요하다.
상세 분석
이 논문은 약물 부작용(ADR) 탐지를 위해 ‘특징 행렬(feature matrix)’이라는 새로운 데이터 구조를 제안한다. THIN 데이터베이스는 환자별 처방 기록과 일일 의료 이벤트(진단코드, 증상, 검사 결과 등)를 포함하는 방대한 시계열 데이터이다. 기존 연구들은 주로 사건 빈도 기반 통계(예: PRR, ROR)나 단순 연관 규칙에 의존했으며, 고차원·희소한 이벤트를 효과적으로 다루지 못했다. 저자들은 먼저 특정 약물을 복용한 환자군과 복용하지 않은 대조군을 정의하고, 각 환자에 대해 일정 기간(예: 복용 전·후 30일) 동안 발생한 모든 의료 이벤트를 이진 벡터 형태로 매핑한다. 이렇게 구축된 행렬은 행이 환자, 열이 의료 이벤트(수천~수만 개)이며, 대부분이 0인 고희소 행렬이다.
특징 행렬을 만든 뒤, 저자는 두 단계의 특징 선택을 수행한다. 1) 필터 기반 방법으로 카이제곱, 정보이득, 상관계수 등을 계산해 통계적으로 유의한 이벤트를 사전 선별한다. 2) 래퍼 기반 방법으로 L1 정규화 로지스틱 회귀(LASSO)와 트리 기반 모델(랜덤 포레스트, XGBoost)의 변수 중요도를 활용해 최종 후보를 좁힌다. 이 과정에서 다중공선성 문제와 과적합을 방지하기 위해 교차 검증과 부트스트랩 샘플링을 적용하였다.
선별된 특징은 ‘유의한 부작용 후보’로 간주되며, 각 후보에 대해 위험비(Odds Ratio)와 신뢰구간을 계산한다. 실험에서는 아토르바스타틴(고지혈증 치료제), 알렌드론산(골다공증 치료제), 메토클로프라미드(위장관 운동 촉진제) 세 약물에 대해 알려진 주요 부작용(예: 근육통, 위장 장애, 신경학적 증상)과 비교 검증하였다. 결과는 기존 PRR·ROR 기반 시스템보다 높은 정밀도(>0.85)와 재현율(>0.80)을 보였으며, 특히 희귀 부작용(예: 근육염, 저칼슘혈증)도 일부 탐지했다.
하지만 몇 가지 한계도 존재한다. 첫째, 특징 행렬이 고희소이므로 차원 축소 과정에서 정보 손실 위험이 있다. 둘째, 데이터는 영국 일차 진료 기록에 국한돼 있어 다른 국가·보건 시스템에 바로 적용하기 어렵다. 셋째, 검출된 ADR이 실제 인과관계를 입증하려면 역학적 연구나 임상 시험이 필요하다. 마지막으로, L1 정규화는 변수 간 상호작용을 포착하지 못하므로 복합 부작용 탐지에는 추가 모델링이 요구된다.
전반적으로 이 연구는 대규모 전자건강기록(EHR)에서 고차원 이벤트를 구조화하고, 통계·머신러닝 기반 특징 선택을 결합해 ADR 탐지 효율을 크게 향상시켰다는 점에서 의미가 크다. 향후 실시간 감시 시스템에 적용하거나, 다기관·다국가 데이터와 통합해 일반화성을 검증하는 연구가 기대된다.