초음파 영상만으로 자동 유방 보고서 생성하는 새로운 멀티태스크 비전 언어 프레임워크
초록
본 논문은 이미지‑보고서 쌍이 부족한 상황에서도 초음파 영상만으로 유방 방사선 보고서를 자동 생성할 수 있는 BUSTR 프레임워크를 제안한다. 구조화된 기술자(BI‑RADS, 병리, 조직학)와 라디오믹스 특징을 활용해 멀티헤드 Swin 트랜스포머 기반 비전 인코더를 학습하고, 토큰‑레벨 교차 엔트로피와 코사인 유사도 정렬 손실을 결합한 이중 레벨 목표로 시각·텍스트 토큰을 정렬한다. 두 공개 BUS 데이터셋(BrEaST, BUS‑BRA)에서 표준 NLG 지표와 임상 효능 지표 모두 향상된 성능을 보였으며, 이미지‑보고서 쌍 없이도 실용적인 보고서 생성이 가능함을 입증한다.
상세 분석
BUSTR은 기존 자동 방사선 보고서 생성(RRG) 연구가 직면한 두 가지 핵심 문제, 즉 충분한 이미지‑보고서 쌍 데이터의 부재와 대형 언어 모델이 야기하는 허위 생성(halucination) 위험을 동시에 해결하려는 시도이다. 이를 위해 저자는 먼저 구조화된 기술자(descriptor) 집합을 정의한다. BI‑RADS 등 임상적으로 중요한 카테고리를 포함한 기술자는 각 이미지마다 존재하거나 결측될 수 있으며, 이러한 불완전성을 고려해 멀티태스크 학습을 설계한다. 비전 인코더는 Swin‑Transformer 기반의 멀티헤드 구조를 채택해, 각 헤드가 서로 다른 기술자 집합에 특화된 시각 표현을 학습하도록 한다. 멀티태스크 손실은 각 헤드별로 해당 기술자 라벨을 예측하는 교차 엔트로피와, 전체 이미지에 대한 라디오믹스 특징을 회귀하는 손실을 가중합한 형태이며, 이는 데이터셋마다 상이한 라벨 구성을 자연스럽게 수용한다.
텍스트 생성 측면에서는, 기술자와 라디오믹스 특징을 토큰화한 입력 시퀀스를 디코더에 공급하고, 출력 토큰과 정답 토큰 사이의 교차 엔트로피를 기본 목표로 삼는다. 여기서 저자는 추가적으로 “입력‑출력 정렬 손실”을 도입한다. 이는 입력 시퀀스 전체 임베딩과 생성된 출력 시퀀스 전체 임베딩 사이의 코사인 유사도를 최대화하는 손실로, 토큰 수준의 정확도뿐 아니라 전체 의미적 일관성을 강화한다. 두 손실을 동시에 최적화함으로써, 모델은 이미지‑텍스트 간의 정교한 정렬을 학습하고, 보고서 내에 존재하지 않는 정보를 생성하는 위험을 크게 감소시킨다.
실험에서는 BrEaST(소규모, 풍부한 기술자)와 BUS‑BRA(대규모, 제한된 기술자) 두 데이터셋을 사용했다. 평가 지표는 BLEU, ROUGE, METEOR 등 전통적인 NLG 메트릭과, BI‑RADS 카테고리 정확도, 병리 진단 일치율 등 임상 효능 지표를 포함한다. BUSTR은 모든 지표에서 기존 이미지‑보고서 쌍 기반 모델보다 우수한 성능을 보였으며, 특히 BI‑RADS와 병리 예측에서 5~8%p의 절대 향상을 기록했다. Ablation 연구를 통해 멀티헤드 인코더와 정렬 손실이 각각 성능에 미치는 기여도를 확인했으며, 두 요소를 동시에 사용할 때 가장 큰 시너지 효과가 나타났다.
한계점으로는 기술자 라벨이 완전하지 않은 경우(특히 BUS‑BRA) 정밀도가 다소 감소한다는 점과, 라디오믹스 특징 추출 과정이 별도 전처리를 필요로 한다는 점을 들 수 있다. 향후 연구에서는 라벨 결측을 보완하기 위한 semi‑supervised 학습과, 라디오믹스 특징을 엔드‑투‑엔드 방식으로 통합하는 방안을 모색할 예정이다.