시간 방사선 변화 설명 모델 TRACE
초록
TRACE는 이전·현재 흉부 X‑ray 영상을 동시에 입력받아, 병변의 악화·호전·안정 여부를 텍스트로 서술하고, 해당 병변을 바운딩 박스로 정확히 표시하는 최초의 시계열·시각‑언어 통합 모델이다. 79 k개의 학습 샘플과 22 k개의 테스트 샘플을 활용해 90 % 이상의 위치 정확도와 48 %의 3‑way 변화 분류 정확도를 달성했으며, 변화 감지는 시간 정보와 공간 grounding이 동시에 학습될 때만 나타나는 emergent 특성임을 밝혀냈다.
상세 분석
본 논문은 흉부 X‑ray의 시계열 비교와 시각적 grounding을 하나의 프레임워크에 결합한 TRACE 모델을 제안한다. 데이터는 MIMIC‑CXR‑JPG와 Chest ImaGenome을 교차 활용해, 동일 환자의 연속 촬영을 짝지은 후, ImaGenome이 제공하는 해부학적 바운딩 박스와 “worsened / improved / stable” 라벨을 텍스트 형태로 정제하였다. 총 79 202개의 학습 샘플과 22 553개의 테스트 샘플이 환자‑분리 방식으로 구성돼, 데이터 누수 위험을 최소화한다.
모델 아키텍처는 두 단계로 이루어진다. 첫 단계에서는 사전학습된 BioViL‑T 비전 트랜스포머(14×14 토큰, 512 차원)를 각각의 prior와 current 이미지에 적용해 196개의 시각 토큰을 추출한다. 두 토큰 시퀀스를 단순히 연결(concatenation)해 392개의 토큰을 만든 뒤, 2‑layer MLP(GELU)로 4096 차원으로 투영한다. 여기서 중요한 점은 이미지 차이를 직접 계산하지 않고, 언어 디코더의 자체‑어텐션이 두 이미지 간의 대응 관계를 암묵적으로 학습한다는 것이다.
언어 디코더는 Vicuna‑7B(또는 Mistral‑7B)를 LoRA 방식으로 파인튜닝한다. LoRA는 query와 value 행렬에 저‑랭크 어댑터(r=128, α=256)를 삽입해 약 30 M 파라미터만 추가 학습한다. 전체 파인튜닝 파라미터는 약 34 M으로, 비전 인코더는 완전히 고정한다. 학습은 두 단계로 진행되는데, 첫 단계는 MLP만 학습해 시각 특징을 언어 임베딩 공간에 정렬하고, 두 번째 단계에서 전체 디코더와 LoRA를 공동 최적화한다.
평가 지표는 네 가지 축으로 구성된다. (1) 변화 분류 정확도(3‑way), (2) IoU > 0.5 기준 grounding 정확도, (3) BLEU‑4·METEOR·ROUGE‑L 등 NLG 메트릭, (4) RadGraph·CheXbert F1 같은 임상 적합도. TRACE는 변화 분류에서 48 % 정확도, grounding에서는 90.2 % IoU > 0.5 정확도를 기록했다. 특히 ablation 실험에서 시간 정보만 제공하거나 grounding supervision만 제공할 경우 변화 감지 성능이 0 %에 수렴해, 두 요소가 동시에 학습될 때만 emergent하게 변화 감지가 발생함을 확인했다. 이는 grounding이 공간적 어텐션을 제공해 시계열 비교에 필요한 세밀한 영역 집중을 가능하게 함을 시사한다.
한계점으로는 변화 분류 정확도가 아직 50 % 수준에 머물러, 임상 적용을 위해 추가적인 정밀도 향상이 필요하고, 바운딩 박스는 2‑D 정규화 좌표에 국한돼 실제 영상 해부학적 변형을 완전히 포착하지 못한다는 점을 들 수 있다. 향후 3‑D CT와 연계하거나, 멀티‑모달 LLM을 도입해 복합적인 임상 문맥을 반영하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기