인공지능 기반 방사선 보고서 분석으로 본 갑상선 우발 소견의 역학과 임상적 파급효과

초록

본 연구는 2017년~2023년 사이 메이요 클리닉에서 시행된 115,683건의 방사선 검사 보고서를 인공지능(NLP) 파이프라인으로 분석하여 갑상선 우발 소견(ITF)의 유병률과 추적 검사의 결과를 조사하였다. 전체 환자의 7.8%에서 ITF가 발견됐으며, 대부분이 결절 형태였다. ITF는 여성, 고령, 고BMI, 종양학·내과 의뢰 검사에서 더 흔했으며, 목 CT·PET·핵의학 검사에서 특히 많이 보고되었다. 보고서에 결절 크기·특징이 충분히 기재되지 않았으며, ITF 발견 후 초음파·생검·수술·암 진단이 현저히 증가했다. 대부분의 발견된 암은 저위험 papillary carcinoma였으며, ITF를 통해 발견된 암은 크기가 작았다.

상세 요약

이 연구는 대규모 실세계 데이터베이스와 최신 트랜스포머 기반 자연어 처리(NLP) 모델을 결합한 점이 가장 큰 강점이다. 115,683명의 성인 환자(평균 연령 56.8세, 여성 52.9%)를 대상으로, 갑상선을 포함한 다양한 영상(CT, PET, 핵의학 등)에서 보고된 방사선 소견을 자동으로 추출하고, ITF 여부와 결절의 구체적 특성을 분류하였다. 모델은 사전학습된 BERT 변형을 의료 텍스트에 맞게 파인튜닝했으며, 검증 단계에서 95% 이상의 정확도와 F1 점수를 기록해 신뢰성을 확보했다.

ITF의 전체 유병률은 7.8%였으며, 이는 기존 문헌에서 보고된 2~5%보다 현저히 높다. 이는 두 가지 요인으로 해석할 수 있다. 첫째, 연구 기간 동안 영상 횟수가 급증하고, 고해상도 스캔이 보편화되면서 작은 결절까지 포착되는 경우가 늘었다. 둘째, NLP 파이프라인이 기존 수동 검토보다 미세한 언어적 단서를 포착해 ‘우발’이라는 표현을 놓치지 않았기 때문이다.

성별·연령·BMI와 같은 인구통계학적 변수와 검사 의뢰 부서(종양학·내과) 간의 연관성을 로지스틱 회귀 분석으로 확인했으며, 여성(OR≈1.3), 65세 이상(OR≈1.5), BMI≥30(OR≈1.2)에서 ITF 위험이 유의하게 상승했다. 특히 목 부위 CT, PET/CT, 핵의학 스캔에서 ITF 검출 확률이 일반 흉부 CT 대비 2~3배 높았다. 이는 해당 영상이 갑상선을 직접 촬영하거나, 대사활동을 강조하기 때문에 결절을 더 민감하게 포착할 수 있기 때문이다.

보고서 내 결절 특성 기술은 전반적으로 부족했다. 크기 정보는 44%에 불과했고, 석회화·경계·내부 구조 등 세부 특징은 15% 미만으로 보고되었다. 이는 임상의가 방사선 보고서에 상세 정보를 기재할 동기가 부족하거나, 전자건강기록(EHR) 시스템에서 구조화된 입력을 지원하지 않기 때문으로 보인다.

ITF 발견 후 임상 경로를 추적한 결과, ITF 환자는 갑상선 초음파(OR≈4.1), 조직생검(OR≈2.8), 갑상선 절제술(OR≈2.2), 그리고 갑상선암 진단(OR≈1.9)의 위험이 현저히 높았다. 특히 발견된 암의 85%가 저위험 papillary carcinoma였으며, 평균 종양 크기는 0.9 cm로, ITF 없이 진단된 암(평균 1.4 cm)보다 작았다. 이는 ITF가 ‘오버다이그노시스’—즉, 임상적으로 무의미한 작은 암을 과도하게 진단하게 만드는 메커니즘을 뒷받침한다.

연구의 제한점으로는 단일 기관 데이터에 국한돼 일반화 가능성이 제한되고, ITF와 실제 임상 행동 사이의 인과관계를 완전히 규명하지 못했다는 점이다. 또한, NLP 모델이 보고서의 부정확한 표현이나 오타에 민감할 수 있어, 일부 ITF를 놓쳤을 가능성도 존재한다.

이러한 결과는 방사선 보고서의 표준화와 ITF에 대한 관리 가이드라인 수립의 필요성을 강조한다. 특히, 결절 크기·특징을 구조화된 형태로 기록하고, ‘관찰만 필요’한 작은 결절에 대해 과도한 추적 검사를 제한하는 정책이 오버다이그노시스를 감소시킬 수 있다. 향후 연구에서는 다기관 협업을 통한 외부 검증과, AI 기반 위험 예측 모델을 결합해 개인 맞춤형 추적 전략을 개발하는 것이 바람직하다.

초록

상세 요약

📜 논문 원문 (영문)