고해상도 시노그램 완성을 위한 학습 무료 확산 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HRSino는 사전 학습 없이 확산 모델의 추론 과정을 공간·해상도에 따라 재구성해 고해상도 시노그램 결손을 효율적으로 복원한다. 저해상도에서 전역 구조를 잡고, 중해상도에서 보강한 뒤, 고해상도에서는 주파수 기반 패치 스킵과 구조 적응형 디노이징 스케줄러를 적용해 메모리 사용량을 최대 30.81 %·추론 시간을 17.58 % 절감하면서도 복원 정확도를 유지한다.

상세 분석

본 논문은 CT 재구성 전 단계인 시노그램 결손 복원에서 발생하는 고해상도(2048 × 2048 이상) 데이터의 메모리·연산 부담을 근본적으로 완화하는 새로운 추론 프레임워크 HRSino를 제안한다. 핵심 아이디어는 “학습‑무료”라는 점에서 기존의 모델 재학습이나 구조 변경 없이, 확산 모델의 기존 UNet을 그대로 활용하면서 추론 단계만을 다층적으로 재배치하는 것이다.

첫 번째 단계는 저해상도(원본의 0.25 ×)에서 전체 시노그램을 DDIM(Deterministic Denoising Diffusion Implicit Models) 방식으로 한 번에 디노이징한다. 이때 전역적인 구조와 큰 스케일의 컨텍스트가 확보되며, 메모리 사용량이 크게 감소한다. 두 번째 단계에서는 중해상도(0.5 ×)로 업샘플링된 저해상도 결과와 원본 중해상도 입력을 1:1 가중 평균으로 결합해, 전역 정보와 중간 스케일의 세부 정보를 동시에 제공한다. 이렇게 단계별로 점진적인 해상도 상승을 수행함으로써, 고해상도 단계에서 전체 프레임을 다시 로드할 필요 없이 지역 패치만을 처리할 수 있다.

고해상도 단계에서 도입된 두 가지 메커니즘이 가장 혁신적이다. 첫째, “주파수 인식 패치 스킵”은 각 패치를 2‑D FFT로 변환해 고주파 에너지 비율 γ(P)를 계산하고, 마스크 비율 r(P)을 보정한 γ′(P) 값이 사전 정의된 임계값 이하이면 해당 패치를 디노이징 과정에서 제외한다. 대신 저진폭 가우시안 노이즈를 삽입한 합성 패치를 사용해 빠르게 근사한다. 이는 시노그램의 배경과 같이 저주파 성분이 지배적인 영역에서 불필요한 연산을 크게 절감한다.

둘째, “구조 적응형 디노이징 스케줄러”는 패치별 복잡도 점수 κ(P)를 Shannon 엔트로피와 고주파 에너지의 가중 합으로 정의한다. κ(P)가 높을수록 더 많은 DDIM 스텝을 할당하고, 낮은 경우에는 스텝 수를 감소시켜 연산량을 조절한다. 이렇게 지역 복잡도에 따라 디노이징 깊이를 동적으로 조정함으로써, 세밀한 구조가 존재하는 영역은 충분히 정제되고, 평탄한 영역은 과도한 연산을 피한다.

경계 부위에서 발생할 수 있는 시각적 불연속을 방지하기 위해 코사인 가중 블렌딩을 선택적으로 적용한다. 인접 패치의 경계에서 Sobel 필터 기반 그래디언트가 일정 수준을 초과하면 부드러운 블렌딩을 수행하고, 그렇지 않은 경우 단순 스티치를 사용해 추가 연산을 절감한다.

실험에서는 A100 GPU 환경에서 2048 × 2048 시노그램에 대해 기존 최첨단 프레임워크 대비 피크 메모리 사용량을 최대 30.81 % 감소시키고, 전체 추론 시간을 17.58 % 단축하였다. PSNR·SSIM 등 정량적 복원 품질 지표에서는 거의 차이가 없으며, 다양한 데이터셋·마스크 비율·마스크 형태에 대해 일관된 성능을 보였다.

이러한 설계는 (1) 사전 학습이 필요 없는 즉시 적용 가능성, (2) 기존 확산 모델을 그대로 활용해 추가적인 파라미터 비용이 없으며, (3) 메모리·시간 효율성을 동시에 달성한다는 점에서 고해상도 의료·산업 CT 파이프라인에 실용적인 솔루션을 제공한다. 또한, 주파수 기반 스킵과 복잡도 기반 스텝 할당이라는 두 축을 결합한 접근법은 다른 고해상도 영상 복원·생성 작업에도 일반화 가능성을 시사한다.

고해상도 시노그램 완성을 위한 학습 무료 확산 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기