커리큘럼 기반 3D CT 보고서 자동 생성: 언어‑프리 비주얼 그라프팅과 구역 제한 압축

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 3차원 흉부 CT 영상을 입력으로, 사전 학습된 언어‑프리 비주얼 인코더와 Llama 3.2 3B 디코더를 연결하는 4단계 커리큘럼 학습 프레임워크(Ker‑VLJEPA‑3B)를 제안한다. 핵심 기술은 (1) 구역‑제한 교차‑어텐션을 이용해 가변 길이 슬라이스 임베딩을 32개의 공간적 토큰으로 압축, (2) LLM 임베딩의 이방성을 해소하는 PCA 화이트닝, (3) 정상 텍스트에 의한 그래디언트 편향을 방지하는 양성‑소견 전용 학습, (4) 단계 간 가중치 전이와 EWC 기반 선택적 동결을 통한 지속 학습이다. CT‑RATE 벤치마크에서 매크로 F1 = 0.429(임계값 최적화 시 0.448)를 달성해 기존 최고 성능을 능가한다.

상세 분석

Ker‑VLJEPA‑3B는 “시각‑언어 결합을 언제, 어떻게 수행할 것인가”라는 근본적인 질문에 단계적 답을 제시한다. 첫 번째 단계에서는 LeJEPA ViT‑Large(1024‑d)를 이용해 라벨이 전혀 없는 CT 볼륨에 대해 자체‑감독형 Joint‑Embedding Predictive Architecture(JEPA) 학습을 수행한다. 이 과정은 이미지‑텍스트 대조 학습이 아닌 순수 시각 목표를 사용함으로써, 언어적 편향이 전혀 섞이지 않은 순수 시각 표현을 얻는다.

두 번째 단계인 “구역‑제한 교차‑어텐션”은 300~600장의 슬라이스를 Z‑축을 기준으로 32개의 구역으로 나눈 뒤, 각 구역에 전용 어텐션 헤드를 할당한다. 이렇게 하면 슬라이스 수가 가변적이더라도 토큰 수는 고정(32 × 1024)되어 LLM의 컨텍스트 윈도우를 초과하지 않으며, 동시에 병변이 위치한 해부학적 영역 정보를 보존한다.

세 번째 단계에서는 LLM의 토큰 임베딩이 고도로 상관관계가 높은(평균 코사인 유사도 ≈ 0.95) 특성을 가지고 있음을 발견하고, PCA 기반 화이트닝을 적용해 256‑d 등방성 공간으로 변환한다. 이 변환은 시각‑언어 정렬을 위한 대조 손실(InfoNCE, MMD 등)의 수렴성을 크게 향상시킨다.

네 번째 단계인 “양성‑소견‑전용” 학습은 RadBERT 라벨 추출 시 정상 텍스트가 차지하는 비중이 90%에 달한다는 점에 착안한다. 정상 토큰에 대한 손실을 완전히 배제하고, 병변이 명시된 토큰에만 가중치를 부여함으로써 “posterior collapse”(시각 토큰이 무시되는 현상)를 방지한다. 결과적으로 15 epoch 이상 안정적인 생성 성능을 유지한다.

다섯 번째 단계는 “웜 브리지 초기화”이다. 첫 번째 커리큘럼 단계에서 학습된 시각‑LLM 투사 가중치와 교차‑어텐션 파라미터를 그대로 가져와 두 번째 단계(분류‑정밀화)와 세 번째 단계(보고서 생성)의 초기값으로 사용한다. 실험에 따르면, 초기화 없이 시작했을 때 첫 epoch F1 = 0.360에 비해 웜 초기화 시 0.425를 기록, 수렴 속도가 크게 가속된다.

마지막으로 “선택적 교차‑어텐션 동결 + EWC”를 적용한다. 보고서 스타일을 미세 조정할 때는 LoRA 어댑터만 학습하고, 시각‑언어 연결 파라미터는 EWC 기반 정규화 항을 두어 이전 단계에서 중요한 파라미터가 크게 변하지 않도록 한다. 이는 병변 검출 성능을 유지하면서 문체를 라디올로지스트 수준으로 맞출 수 있게 한다.

성능 평가에서는 CT‑RATE(2,984 volumes, 18 클래스)에서 매크로 F1 = 0.429를 달성했으며, 임계값 최적화 후 0.448까지 끌어올렸다. 이는 기존 최첨단 U‑VLM(0.414)보다 3.6%p, 최적화 시 8.2%p 향상된 수치다. Ablation 실험에서는 시각 토큰이 전체 성능의 56.6%를 차지한다는 결과와, 병변 관련 단어에 대한 시각 기여도가 2배 이상임을 확인했다.

전반적으로 Ker‑VLJEPA‑3B는 (1) 언어‑프리 시각 백본, (2) 구역‑제한 압축, (3) 정규화된 임베딩 정렬, (4) 불균형 데이터에 대한 손실 설계, (5) 단계 간 지식 전이와 지속 학습이라는 다섯 축을 통해 3D 의료 영상‑텍스트 생성 문제의 핵심 난제를 체계적으로 해결한다.

커리큘럼 기반 3D CT 보고서 자동 생성: 언어‑프리 비주얼 그라프팅과 구역 제한 압축

초록

상세 분석

댓글 및 학술 토론

의견 남기기