스테레오 수술 훈련을 위한 교차 도메인 조건부 GAN 기반 하이퍼리얼리즘

본 논문은 물리적 수술 모형(phantom)의 시각적 현실감을 향상시키기 위해, 스테레오 영상의 깊이 일관성을 유지하면서 실제 내시경 영상 스타일을 전달하는 교차 도메인 조건부 GAN을 제안한다. 기존 CycleGAN 기반 변환은 색상 왜곡과 스테레오 불일치가 빈번했으나, 제안 방법은 목표 도메인 이미지 샘플을 조건으로 활용해 좌·우 이미지 간 색상·텍스처를 일관되게 생성한다. 90개의 테스트 케이스 중 84건에서 전문가와 의료학생 모두가 기존…

저자: S, y Engelhardt, Lalith Sharan

스테레오 수술 훈련을 위한 교차 도메인 조건부 GAN 기반 하이퍼리얼리즘
본 논문은 물리적 수술 모형(phantom)이 제공하는 촉각적·기계적 특성은 뛰어나지만, 시각적 현실감이 부족해 최소 침습 수술 교육에서 한계가 되는 문제를 해결하고자 한다. 특히 내시경 기반 수술은 2D 화면에 스테레오 영상을 투사해 깊이 인식을 요구하는데, 기존의 이미지‑투‑이미지 변환 기법인 CycleGAN은 색상 왜곡과 스테레오 불일치를 초래해 입체감과 현실감을 저해한다. 이를 극복하기 위해 연구팀은 “교차 도메인 조건부 GAN”(Cross‑Domain Conditional GAN, CD‑cGAN)을 설계하였다. 기본 아이디어는 두 도메인 X(시뮬레이션 영상)와 Y(실제 내시경 영상) 사이의 매핑을 학습하면서, 변환 과정에 목표 도메인 이미지 y ∈ Y를 조건으로 삽입해 색상·조명 정보를 공유하도록 하는 것이다. 구체적인 흐름은 다음과 같다. 1. **좌측 이미지 변환**: 입력 좌측 이미지 xₗ와 무작위로 선택된 목표 도메인 샘플 y_W를 결합해 G(xₗ, y_W) = y′ₗ을 생성한다. 2. **우측 이미지 변환**: 생성된 y′ₗ을 두 번째 입력으로 사용해 G(xᵣ, y′ₗ) = y′ᵣ을 만든다. 3. **역변환**: y′ₗ과 y′ᵣ을 각각 F에 입력해 원본 도메인으로 복원하고, L1 사이클 손실을 적용한다. 이 구조는 좌·우 이미지가 동일한 색상·조명 정보를 공유하게 함으로써 스테레오 일관성을 크게 향상시킨다. 네트워크 아키텍처는 기존 CycleGAN의 9‑layer residual block 대신 7‑layer를 사용하고, 6채널(좌·우 이미지 + 조건 이미지) 입력을 처리하도록 수정하였다. 판별기 Dₓ와 Dᵧ는 전체 이미지(70 × 70 패치가 아닌 전체)를 평가해 보다 전역적인 사실성을 학습한다. 학습 데이터는 두 부분으로 구성된다. 첫 번째는 단일 시점(모노) 영상 약 1500장을 이용해 40 epoch 사전 학습을 수행해 기본 스타일 변환 능력을 확보한다. 두 번째는 실제 스테레오 페어 약 1400쌍을 사용해 40 + 40 epoch 동안 교차 조건부 학습을 진행한다. 데이터는 25 fps 혹은 1 fps로 촬영된 내시경 영상에서 240번째 프레임마다 샘플링했으며, 수술 중 발생하는 조직 절단, 봉합, 혈액·수액 흐름 등 다양한 상황을 포함한다. 데이터 증강으로는 수평 뒤집기와 강도 스케일링을 적용하였다. 손실 함수는 adversarial loss, cycle‑consistency L1 loss, 그리고 좌·우 일관성을 강제하는 추가 일관성 손실(λ = 20)을 결합한다. 평가 단계에서는 3명의 심장외과 전문의와 3명의 의료학생을 대상으로 3D 모니터에서 스테레오 영상을 시청하게 하였다. 각 참가자는 5점 Likert 척도로 깊이 인식과 현실감을 평가했으며, 전문가에게는 병변 진단, 사용 기구 명명, 수술 단계 식별이라는 임상적 질문도 제시하였다. 결과는 다음과 같다. - **깊이 인식**: 비전문가 평균 점수가 baseline 2 → 3, 전문가 평균 점수가 3 → 4로 상승하였다. - **현실감**: 대부분의 경우 제안 모델이 baseline보다 높은 점수를 받았으며, 특히 색상·텍스처 일관성에서 큰 차이를 보였다. - **임상 질문 정답률**: 45개 질문 중 병변 진단 37/45, 기구 식별 42/45, 수술 단계 판별 43/45가 정확히 답변되었다. 이는 변환 과정에서 구조적 왜곡이 거의 없음을 의미한다. - **선호도**: 90개 테스트 케이스 중 84개에서 제안 모델이 baseline보다 선호되거나 동등하게 평가되었다(선호 비율 93%). 논문의 주요 기여는 (1) 스테레오 영상 변환에서 색상·조명 일관성을 보장하기 위해 목표 도메인 이미지를 조건으로 활용한 새로운 GAN 설계, (2) 물리적 수술 모형에 실시간으로 적용 가능한 하이퍼리얼리즘 프레임워크, (3) 임상 전문가와 학생을 대상으로 한 정량적 사용자 연구를 통해 깊이 인식과 현실감이 실질적으로 향상됨을 입증한 점이다. 한계점으로는 (a) 실제 수술 현장에서 발생하는 급격한 조명 변화나 반사 효과를 완전히 모델링하지 못했으며, (b) 대규모 다기관 데이터가 부족해 일반화 검증이 제한적이다. 향후 연구에서는 (i) 디스패리티(깊이) 지도 기반 손실을 도입해 더욱 정밀한 입체감 재현, (ii) 경량화된 모델을 설계해 실시간 스트리밍에 적용, (iii) 다양한 장기와 수술 종류에 대한 확장 검증을 목표로 할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기