3D 인트라오럴 스캔을 활용한 통합 치과 진단 모델 IOSVLM

IOSVLM은 포인트 클라우드 형태의 3D 인트라오럴 스캔을 직접 입력으로 받아, 23가지 구강 질환을 동시에 진단하고 자연어 보고서를 생성하는 비전‑언어 모델이다. 이 모델은 Geometry‑to‑Chromatic Proxy를 통해 색 정보가 없는 스캔에서도 색 기반 사전학습의 이점을 활용하고, 두 단계 커리큘럼 학습으로 거친 데이터와 고품질 데이터에 순차적으로 적응한다. 19,002건의 스캔과 249,055개의 질문‑답변 쌍을 포함한 IOS…

저자: Huimin Xiong, Zijie Meng, Tianxiang Hu

3D 인트라오럴 스캔을 활용한 통합 치과 진단 모델 IOSVLM
본 논문은 3차원 인트라오럴 스캔(IOS)을 직접 입력으로 받아 다중 질환을 동시에 진단하고 자연어 형태의 보고서를 생성하는 최초의 3D 비전‑언어 모델인 IOSVLM을 제안한다. 기존 연구들은 2D 치과 영상이나 IOS를 다중 뷰 이미지로 변환해 2D VLM에 적용했으나, 이는 복잡한 3D 토폴로지를 충분히 활용하지 못하고 뷰 선택에 따른 정보 손실이 발생한다는 문제점이 있었다. IOSVLM은 이러한 한계를 극복하기 위해 포인트 클라우드 형태의 원시 3D 데이터를 그대로 처리한다. 모델 아키텍처는 크게 세 부분으로 구성된다. 첫 번째는 사전학습된 3D 포인트 클라우드 인코더(ReCon++)로, 절대 위치(Absolute Position), 로컬 기하학(Local Geometry), 전역 디스크립터(Global Descriptor) 세 종류의 특징을 추출한다. 두 번째는 각각의 특징을 LLM 토큰 공간에 매핑하기 위한 전용 MLP 프로젝터와 학습 가능한 비주얼 프롬프트(V_ape, V_local, V_global)이다. 세 번째는 Qwen3‑VL‑8B‑Instruct 기반 대형 언어 모델(LLM)로, 매핑된 시각 토큰과 질문 텍스트를 결합해 답변을 생성한다. IOS는 일반적으로 색 정보가 없으며, 기존 3D 포인트 클라우드 사전학습은 xyz+RGB 입력을 전제로 한다. 이 분포 차이를 해소하기 위해 Geometry‑to‑Chromatic Proxy(GCP)를 도입하였다. GCP는 각 포인트의 표면 법선을 정규화하고 절댓값을 취해 가상의 RGB 채널을 만든다. 이렇게 생성된 “가짜 색”은 색 기반 사전학습이 학습한 색‑구분 능력을 기하학적 신호로 대체해, 미세한 경계와 곡률 변화를 강조한다. 실험에서는 GCP 적용 시 매크로 정확도가 약 5%p, 매크로 F1이 5%p 상승하는 등 성능 향상이 입증되었다. 데이터 측면에서 저자는 IOSVQA라는 대규모 멀티소스 VQA 데이터셋을 구축하였다. 데이터는 세 출처(MalocC IOS, DiseaseIOS, Bits2Bites)에서 수집했으며, 총 19,002건의 IOS와 249,055개의 질문‑답변 쌍을 포함한다. 23개의 구강 질환 라벨을 커버하고, 단일 아치와 폐쇄 아치 두 종류의 스캔 형태를 모두 포함한다. 라벨 정제 과정에서 28명의 교정치과 전문의가 557건을 검증하고, 나머지는 규칙 기반 매핑과 전문가 검토를 통해 품질을 보강하였다. 데이터는 Stage‑1(대규모 저품질), Stage‑2(고품질 + 절반 CoT 근거)로 나누어 학습 및 평가에 사용된다. 학습 전략은 두 단계 커리큘럼 방식이다. Stage‑1에서는 3D 인코더와 프로젝터를 학습하고 LLM을 고정한다. 이 단계는 대규모 저품질 라벨을 활용해 기하학‑언어 정렬을 강화하고, GCP를 통한 색 프록시가 효과적으로 작동하도록 만든다. Stage‑2에서는 프로젝터와 LLM을 LoRA 방식으로 미세조정한다. 고품질 라벨과 CoT 근거가 포함된 데이터로 학습함으로써, 모델은 단순 라벨 예측을 넘어 근거 텍스트까지 생성하는 설명 가능한 VQA 능력을 갖춘다. 실험에서는 IOSVLM을 다양한 베이스라인과 비교하였다. 2D 멀티모달 LLM(GPT‑5, Gemini 3 Pro 등), 2D 의료 특화 LLM(HuatuoGPT‑V, Hulu‑Med 등), 3D 포인트 클라우드 기반 LLM(PointLLM, ShapeLLM) 등이 포함된다. 평가 지표는 매크로 정확도, 매크로 F1, 정밀도, 재현율, 파싱률(Parsing Rate)이다. IOSVLM은 매크로 정확도 77.23%, 매크로 F1 50.39%를 기록해 모든 베이스라인을 크게 앞섰으며, 특히 2D 기반 모델 대비 정확도·F1에서 각각 최소 +16%p, +11%p 향상을 보였다. 파싱률도 100%로, 출력 형식이 일관적임을 확인했다. Ablation 실험에서는 GCP 부재 시 성능이 현저히 떨어짐을 확인했으며, 두 단계 학습 모두가 최종 성능에 기여함을 입증했다. 논문의 주요 기여는 다음과 같다. (1) 3D IOS 데이터를 직접 활용한 최초의 대규모 VLM과, 이를 위한 19,002건·249,055쌍의 멀티소스 VQA 데이터셋 구축. (2) 색 정보가 없는 3D 스캔에 색 기반 사전학습을 적용하기 위한 Geometry‑to‑Chromatic Proxy 제안. (3) 3D 인코더‑프로젝터‑LLM 구조와 두 단계 커리큘럼 학습을 통해 기하학적 인식과 언어 생성 능력을 동시에 최적화. (4) 다양한 베이스라인 대비 뛰어난 성능 입증 및 상세한 Ablation 분석. 한계점으로는 현재 8B 규모 LLM에 의존하고 있어 복잡한 임상 기록 생성이나 장기 추적에 제한이 있을 수 있다. 또한 GCP가 표면 법선에 기반하므로 매우 얇은 연조직 변화를 포착하는 데 한계가 있다. 향후 연구에서는 더 큰 의료 특화 LLM과 결합하거나, 곡률·주변 환경 기반의 다중 프록시를 도입해 미세 변형 감지를 강화할 수 있다. 데이터 측면에서도 다국적·다인종 데이터를 확대하고, 자동 라벨링 및 반자동 검증 파이프라인을 구축하면 모델의 일반화와 실용성이 더욱 향상될 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기