다중 GPU 기반 VMAT 최적화 알고리즘 구현
본 논문은 대규모 선량 전이 계수(DDC) 행렬을 메모리 제한 없이 처리하기 위해, 열생성 방식의 VMAT 최적화 알고리즘을 4개의 GPU에 분산 저장·연산하는 다중 GPU 구현을 제안한다. 헤드·앤·넥스(Head‑and‑Neck)와 전립선 환자 사례를 통해 단일 GPU 전략과 비교했을 때, 계획 품질은 유지하면서 최적화 시간을 1분 수준으로 크게 단축함을
초록
본 논문은 대규모 선량 전이 계수(DDC) 행렬을 메모리 제한 없이 처리하기 위해, 열생성 방식의 VMAT 최적화 알고리즘을 4개의 GPU에 분산 저장·연산하는 다중 GPU 구현을 제안한다. 헤드·앤·넥스(Head‑and‑Neck)와 전립선 환자 사례를 통해 단일 GPU 전략과 비교했을 때, 계획 품질은 유지하면서 최적화 시간을 1분 수준으로 크게 단축함을 입증하였다.
상세 요약
이 연구는 VMAT(볼류메트릭 변조 아크 치료) 최적화가 데이터 규모와 자유도, 그리고 복잡한 하드웨어 제약 때문에 계산적으로 매우 까다로운 문제임을 전제로 한다. 기존에 GPU를 활용한 가속화 시도는 메모리 용량이 제한적이어서 대형 DDC 행렬을 온‑칩에 완전 적재하지 못한다는 한계가 있었다. 논문은 이러한 메모리 병목을 해소하기 위해 열생성(column‑generation) 프레임워크를 그대로 유지하면서, DDC 행렬을 빔 각도별로 네 개의 서브 행렬로 분할하고 각각을 압축 희소 행(row) 형식(CSR)으로 네 개의 GPU에 저장한다. 핵심 연산인 빔렛 가격(beamlet price) 계산은 모든 GPU에서 동시에 수행되어 데이터 병렬성을 극대화하고, 이후 가격 계산 결과를 집계해 가격 문제(PP)와 마스터 문제(MP)를 해결한다. PP와 MP는 연산량이 상대적으로 적어 단일 GPU에서 수행해도 충분히 빠르며, 이로 인해 다중 GPU 간 통신 오버헤드를 최소화한다.
비교 실험에서는 세 가지 단일 GPU 전략을 설정하였다. 첫 번째(S1)는 DDC 행렬을 절단(truncate)해 메모리 요구량을 감소시키지만, 이 경우 최적화된 플랜의 품질이 저하된다. 두 번째(S2)는 DDC 행렬을 CPU와 GPU 간에 반복 전송하는 방식으로, 메모리 제한은 없지만 전송 비용 때문에 전체 실행 시간이 4분 수준으로 늘어난다. 세 번째(S3)는 DDC 연산을 CPU에서 수행하도록 전환했으나, CPU‑GPU 간 데이터 이동과 연산 효율 차이로 6분 가량 소요된다. 반면 제안된 다중 GPU 구현은 메모리 제한을 극복하면서도 1분 이내에 최적화를 마치고, 플랜 품질은 S2·S3와 동일하게 유지한다.
또한, 헤드·앤·넥스 환자 3건과 전립선 환자 3건을 추가로 실험함으로써 다양한 임상 시나리오에서도 일관된 고성능을 확인했다. 특히, 대형 DDC 행렬(수백만 개의 비제로 원소)을 포함하는 경우에도 GPU 메모리 사용량을 균등하게 분산시켜 메모리 초과 오류를 방지하고, 각 GPU의 연산 파이프라인을 효율적으로 활용한다는 점이 큰 강점이다.
이 연구는 열생성 기반 최적화와 다중 GPU 데이터 분산 전략을 결합함으로써, 기존 단일 GPU 접근법이 직면한 메모리·시간 트레이드오프를 효과적으로 해결한다는 점에서 의의가 크다. 향후 더 많은 GPU를 활용하거나, NVLink와 같은 고속 GPU 간 인터커넥트를 이용하면 통신 비용을 더욱 낮출 수 있으며, 실시간 치료 계획 혹은 적응 방사선 치료와 같은 시간 민감도가 높은 응용에도 확장 가능할 것으로 기대된다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...