층별 전문가 정렬 디코딩으로 신뢰성 높은 방사선 보고서 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델(VLM)의 내부 디코딩 과정에 병렬 전문가 신호를 주입해, 방사선 이미지와 텍스트 간의 정합성을 강화하고 환각을 억제하는 LEAD(Layer‑wise Expert‑aligned Decoding) 방식을 제안한다. 다중 병리 분류 전문가 모듈을 각 디코더 레이어에 게이팅 메커니즘으로 연결함으로써, 생성 단계마다 시각적 근거를 동적으로 참조한다. CheXpert Plus와 MIMIC‑CXR 데이터셋 실험에서 임상 정확도와 환각 감소 모두에서 기존 방법을 크게 앞선다.

상세 분석

LEAD는 기존 VLM 기반 방사선 보고서 생성 모델이 갖는 두 가지 근본적 문제—시각‑언어 정렬 편향과 사전 언어 모델의 내재적 환각—를 직접적인 디코딩 단계 개입으로 해결한다는 점에서 혁신적이다. 먼저, 이미지 인코더(ViT)에서 추출한 피처를 다중 병리 분류기(각 병리마다 3‑layer MLP)로 전달해 ‘전문가 신호’를 만든다. 이 신호는 각 병리 클래스에 대한 confidence score(시그모이드 변환된 로짓)와 곱해져 노이즈를 억제하고, 모든 클래스의 가중 피처를 concat 후 선형 변환해 전역 expert embedding e를 만든다.

핵심은 이 e를 디코더의 각 레이어 l에 맞게 MLP ϕ_l 로 변환해 레이어‑별 expert embedding e_l를 생성한다는 점이다. 이후, 레이어 l의 hidden state h_{l,t}와 e_l을 concat하고 작은 MLP ϕ_gate 로 게이트 g_{l,t}=σ(ϕ_gate(

층별 전문가 정렬 디코딩으로 신뢰성 높은 방사선 보고서 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기