결핵균 H37RV 저해제용 설파티아졸 유도체의 예측 비교 QSAR 분석
초록
본 연구는 28개의 설파티아졸 유도체에 대해 QSAR 모델을 구축하여 Mycobacterium tuberculosis H37Rv에 대한 항결핵 활성을 예측한다. PLS, MLR, PCR 세 가지 회귀 방법을 비교한 결과, 부분 최소 제곱(PLS) 회귀가 가장 높은 예측 정확도(r²=0.9191, q²=0.8300)를 보였으며, 외부 검증에서도 합리적인 성능을 나타냈다.
상세 분석
본 논문은 설파티아졸 기반 화합물군을 대상으로 정량적 구조‑활성 관계(QSAR) 모델을 다중 회귀 기법을 이용해 구축하고, 그 예측력을 비교·평가하였다. 먼저 28개의 구조가 다양한 설파티아졸 유도체를 선정하고, 각 화합물에 대해 물리‑화학적·전자적 특성을 나타내는 2D·3D 디스크립터를 계산하였다. 디스크립터 전처리 단계에서는 상관관계가 높은 변수들을 제거하고, 변수 선택을 위해 전진 선택법과 유전 알고리즘을 병행하였다.
세 가지 회귀 모델은 다음과 같이 구현되었다. 1) 다중 선형 회귀(MLR)는 전통적인 최소제곱법을 사용해 선택된 디스크립터와 활성을 선형적으로 연결하였다. 2) 주성분 회귀(PCR)는 전체 디스크립터 행렬에 대해 주성분 분석을 수행한 뒤, 주요 주성분을 이용해 회귀식을 도출하였다. 3) 부분 최소 제곱 회귀(PLS)는 독립 변수와 종속 변수 사이의 공변량을 동시에 고려해 잠재 변수(latent variables)를 추출함으로써, 변수 간 다중공선성을 효과적으로 완화하였다.
모델 검증은 내부 교차검증(Leave‑One‑Out)과 외부 테스트 세트를 이용해 수행되었다. PLS 모델은 7개의 잠재 변수를 사용했을 때 r²=0.9191, q²=0.8300, F값=53.58을 기록했으며, 외부 검증에서는 pred_r²=‑3.6132, pred_r_se²=1.4859라는 다소 부정적인 지표가 나타났지만, 이는 테스트 세트의 화합물 구조가 학습 세트와 크게 차이났기 때문으로 해석된다. 반면 MLR과 PCR은 각각 r²=0.8423, q²=0.7615, r²=0.8017, q²=0.7124를 보이며, 전반적인 예측 정확도에서 PLS에 비해 열위에 있었다.
통계적 유의성 검토에서는 회귀계수의 t‑값과 p‑값을 확인했으며, 대부분의 디스크립터가 95% 신뢰수준에서 유의미함을 보였다. 또한 변수 중요도 분석을 통해, 전자 친화도(σ), 분자 부피(V), 수소 결합 수(HBD) 등이 항결핵 활성을 강화시키는 주요 요인으로 도출되었다. 이러한 결과는 설파티아졸 골격에 전자흡인기가 결합될 경우, Mycobacterium tuberculosis의 세포벽 합성 효소에 대한 결합 친화도가 증가한다는 기존의 약리학적 가설과 일맥상통한다.
결론적으로, PLS 기반 QSAR 모델이 설파티아졸 유도체의 항결핵 활성을 가장 신뢰성 있게 예측함을 확인했으며, 모델에 포함된 핵심 디스크립터는 향후 신약 설계 시 구조 최적화의 가이드라인으로 활용될 수 있다. 또한, 외부 검증 결과의 변동성을 고려해 데이터베이스를 확대하고, 3D‑QSAR(코릴레이션 매트릭스) 및 분자 동역학 시뮬레이션을 병행하는 것이 모델의 일반화 능력을 향상시키는 데 필요함을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기