대규모 비전‑언어 모델을 활용한 고대 방사선 사진 자동 골 식별
초록
본 연구는 최신 대형 비전‑언어 모델(LVLM)을 제로샷 프롬프트와 결합해, 고대 유적지에서 수집된 이질적인 X‑ray 이미지의 주요 골, 투사(view) 및 측면(laterality)을 자동으로 식별하는 파이프라인을 제시한다. DICOM을 뼈 윈도우 PNG로 변환 후, 정교히 설계된 프롬프트를 LVLM에 전달해 JSON 형태의 메타데이터를 얻는다. 100장의 검증 샘플에서 주요 골 92%, 투사 80%, 측면 100% 정확도를 달성했으며, 불확실한 경우 저·중 confidence 플래그를 제공한다.
상세 분석
이 논문은 고고학·인류학 분야에서 급증하고 있는 방사선 이미지 데이터의 메타데이터 부재 문제를 LVLM 기반 자동 라벨링으로 해결하려는 시도다. 먼저 원본 DICOM을 파이썬 pydicom과 VOI LUT를 이용해 8‑bit PNG로 변환하고, MONOCHROME2로 표준화해 뼈가 밝게 보이도록 전처리한다. 이 과정에서 픽셀값을 0‑1로 정규화하고 255 스케일로 재조정함으로써 LVLM이 기대하는 일반적인 이미지 포맷을 만든다.
프롬프트 설계는 논문의 핵심이다. “radiology assistant”라는 역할을 부여하고, 스케일을 판단하기 위한 종이클립(reference object) 사용을 명시함으로써 모델이 크기 정보를 활용하도록 유도한다. 또한 주요 골 리스트, 뼈 길이와 reference object 비율, view 판단 규칙(단일 측면은 lateral, 양측이 보이면 AP) 등을 상세히 기술한다. 이러한 명시적 지시가 없을 경우 LVLM은 구조적 유사성에만 의존해 metacarpal과 phalanx를 혼동하거나 femur와 tibia를 오인하는 오류가 빈번히 발생한다는 점을 실험적으로 확인했다.
모델은 GPT‑4o Vision API(2025년 6월 릴리스)를 temperature 0.3, 5.2초 평균 추론 시간으로 사용했으며, 8423장의 전체 데이터 중 100장을 무작위 추출해 전문가(보드 인증 고고방사선과 전문의)와 비교 평가했다. 주요 골 정확도 92%는 현대 임상 데이터에 CNN을 적용한 결과와 비슷하거나 우수한 수준이며, 특히 laterality 100% 정확도는 reference object 기반 판단이 효과적임을 보여준다. 반면 view 판단 정확도는 80%에 머물렀는데, 이는 프롬프트에 depth perception(깊이감) 구분 지시가 부족했기 때문이다. 논문은 이를 보완하기 위해 “뼈의 앞·뒤 곡률 차이”와 같은 추가 설명을 제안한다.
통계적으로는 Wilson 95% CI와 Cohen’s κ를 활용해 신뢰구간과 일치도를 제시했으며, bone과 laterality는 κ=0.899, 1.000으로 거의 완벽한 합의를 보였다. view는 κ=0.598으로 중간 수준이다. 비용은 이미지당 $0.0085, 전체 $18.92로 인간 전문가 비용 대비 23배 저렴하다. 처리량은 GPU 1대당 분당 11장, 4개의 워커를 병렬화하면 전체 8423장을 밤새 처리할 수 있다.
결론적으로, LVLM은 대규모 고고학 방사선 데이터베이스의 메타데이터 자동 생성에 충분히 실용적이며, 프롬프트 엔지니어링이 모델 성능을 좌우한다는 점을 강조한다. 향후 프롬프트에 해부학적 depth cue를 추가하고, 다중 라벨(골절·병변) 검출을 확장한다면, 고대 인체 변이 연구와 문화‑생물학적 해석에 큰 기여를 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기