관계망 기반 HIV 분류와 다층 퍼셉트론 비교

본 논문은 남아프리카공화국 산전 클리닉에서 수집된 여성 인구통계 데이터를 활용해 HIV 감염 여부를 예측하는 두 가지 인공지능 모델을 비교한다. 첫 번째 모델은 다층 퍼셉트론(MLP) 신경망이며, 두 번째는 저자들이 새롭게 제안한 관계망(Relational Network, RN)이다. **배경 및 목적** HIV/AIDS는 남아프리카에서 높은 유병률을 보이며, 인구통계학적 요인을 기반으로 위험군을 선별하는 것이 공중보건 정책에 중요하다. 기존 연구에서는 주로 신경망, 서포트 벡터 머신, 러프셋 등 다양한 기계학습 기법을 적용했지만, 대부분 50 %~70 % 수준의 정확도에 머물렀다. 또한 변수 간 상호작용을 명시적으로 모델링하지 못한다는 한계가 있었다. 이를 보완하기 위해 저자들은 모든 변수 간 관계를 그래프 형태로 표현하고, 각 엣지에 가중치를 부여해 변수 의존성을 정량화할 수 있는 RN을 고안했다. **데이터 전처리** 2001년 보건부가 공개한 산전 설문 데이터를 사용했으며, 변수는 다음과 같다: 어머니 연령(1‑60), 교육 수준(0‑13), 임신 횟수(Parity, 0‑15), 임신 회수(Gravidity, 0‑11), 아버지 연령(1‑90), HIV 상태(0/1). 문자열 변수는 정수 코드로 변환했고, 모든 특성은 0‑1 구간으로 정규화하였다. 결측값이 존재하는 레코드는 학습에 제외했으며, 테스트에는 1500개의 미사용 레코드를 사용했다. **MLP 모델** 입력 차원은 14(연령·아버지 연령·교육·Parity·Gravidity 각각을 4비트 이진화 포함)이며, 출력은 HIV 상태이다. 은닉층은 17개의 뉴런으로 구성하고, 스케일드 컨쥐게이트 그라디언트(SCG) 알고리즘으로 1000 epoch 학습하였다. 클래스 불균형을 해소하기 위해 양성 사례를 복제해 1:1 비율을 맞췄다. 검증 정확도는 55 %였으며, 혼동 행렬은 TP 221, FP 131, TN 526, FN 622를 보여준다. **관계망 모델** RN은 각 변수(노드)를 서로 연결하는 완전 그래프 구조를 가진다. 각 엣지는 두 방향으로 존재하며, 엣지마다 선형, 로지스틱, 하이퍼볼릭 탄젠트 중 하나의 활성화 함수를 적용한다. 가중치는 0‑1 사이에서 초기화된 뒤, 메트로폴리스‑헤이스팅스 샘플링을 통해 평균제곱오차(MSE)를 최소화하도록 탐색한다. 학습 과정은 전체 변수 재구성을 목표로 하므로, 특정 변수(HIV)만을 위한 최적화가 아니다. 세 가지 활성화 함수별 성능은 다음과 같다: - 선형: 정확도 60 %, TP 127, FP 225, TN 370, FN 772 - 로지스틱: 정확도 65.73 %, TP 77, FP 275, TN 239, FN 909 (FP 비중이 높음) - 하이퍼볼릭 탄젠트: 정확도 57 %, TP 167, FP 185, TN 455, FN 693 가중치 분석 결과, HIV와 가장 강하게 연결된 변수는 어머니 연령(선형 0.30, 탄젠트 0.42)과 아버지 연령(로지스틱 가중치가 가장 높음)이며, 임신 횟수·다태임신은 전반적으로 낮은 가중치를 보였다. 이는 연령이 HIV 감염 위험과 직접적인 연관성을 가질 가능성을 시사한다. **논의** 전체 정확도가 높아질수록 거짓 양성(FP) 비율이 증가하는 현상이 관찰되었다. 이는 데이터가 75 % 이상이 음성인 불균형 특성 때문이며, 단순 정확도만으로 모델을 평가하면 양성 예측 능력이 과소평가될 위험이 있다. 따라서 정밀도·재현율·F1-score와 같은 다중 지표를 도입하거나, 비용 민감 학습을 적용해 모델을 개선해야 한다. 또한 결측치 추정 분야에서 기존 연구가 68 % 수준의 정확도를 기록했으며, 이는 본 논문의 분류 정확도와 비슷하거나 약간 높은 수준이다. 따라서 향후 연구는 분류와 결측치 추정을 동시에 수행할 수 있는 통합 프레임워크를 개발하거나, RN의 가중치를 활용해 의료 전문가가 검증 가능한 인사이트를 도출하는 방향으로 나아가야 한다. **결론** 관계망은 MLP와 비교해 동일하거나 약간 높은 정확도를 보였으며, 특히 변수 간 관계를 투명하게 드러내는 장점이 있다. 그러나 현재 정확도 수준(최고 65.7 %)은 실제 임상 적용에 충분하지 않으며, 80 %~90 % 수준의 정확도가 목표이다. 향후 연구에서는 데이터 불균형을 보다 정교하게 처리하고, 보다 복잡한 비선형 관계를 포착할 수 있는 모델(예: 그래프 신경망, 딥러닝 기반 자동인코더)과 결합함으로써 성능을 향상시킬 필요가 있다.

관계망 기반 HIV 분류와 다층 퍼셉트론 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기