휴대용 결정론적 CNN 기반 신호처리 파이프라인의 종단투종단 처리량 벤치마크
초록
본 논문은 초음파와 같은 위상 배열 신호처리 워크로드를 대상으로, CNN 호환 연산만으로 구성된 결정론적 파이프라인을 GPU(NVIDIA RTX 5090)와 TPU(Google v5e‑1)에서 동일 코드로 실행하여 입력 데이터 처리량(MB/s)과 프레임 레이트(FPS)를 측정하는 벤치마크 방법론을 제시한다. 동적 인덱싱, 순수 CNN 구현, 희소 행렬 구현 세 가지 변형을 비교하고, 에너지·메모리 사용량은 가능한 경우에 한해 보고한다. 결과는 GPU에서 동적 인덱싱이 최고 성능을 보이지만 TPU에서는 순수 CNN 형태가 월등히 우수함을 보여, 하드웨어 이식성과 결정론성을 동시에 만족하는 설계가 가능함을 증명한다.
상세 분석
이 연구는 현대 AI 가속기에서 전통적인 신호처리 알고리즘을 그대로 실행하기 어려운 현실을 인식하고, 모든 연산을 컨볼루션, 포인트와이즈 연산, 풀링·리덕션 등 CNN‑친화적인 기본 연산으로 재구성한다는 근본적인 접근을 취한다. 핵심은 가중치가 전혀 없는 ‘학습‑프리’ 파이프라인을 만든 뒤, 동일한 파이썬/파이토치 코드베이스를 두 하드웨어 백엔드에 그대로 전달한다는 점이다. 이를 통해 코드 레벨에서 발생할 수 있는 재작성·재검증 비용을 완전히 배제하고, 하드웨어 차이에 의한 순수 성능 차이만을 측정한다는 점이 큰 장점이다.
세 가지 구현 변형은 각각 메모리 접근 패턴과 연산 흐름에서 차이를 만든다.
- 동적 인덱싱은 gather‑style 연산을 활용해 채널·시간 축을 자유롭게 재배열한다. GPU는 복잡한 메모리 트래픽을 효율적으로 처리할 수 있어 초당 6~7 GB 수준의 입력 처리량과 1 200 FPS 이상의 높은 프레임 레이트를 달성한다. 그러나 TPU는 XLA 컴파일러가 불규칙 메모리 접근을 최적화하지 못해 30 MB/s 수준에 머문다.
- 완전 CNN 변형은 모든 연산을 정형화된 컨볼루션과 축소 연산으로 대체한다. 이 경우 연산 그래프가 고정되고, 하드웨어가 제공하는 매트릭스 연산 유닛을 최대한 활용한다. 결과적으로 TPU에서 500 MB/s 이상, 100 FPS 수준의 성능을 기록해, 동적 인덱싱 대비 10배 이상 향상된다. GPU에서도 메모리 접근이 규칙적이기 때문에 메모리 사용량이 감소하고, B‑mode에서 283 MB/s, 52 FPS 정도의 안정적인 성능을 보인다.
- 희소 행렬 변형은 동적 인덱싱을 구조화된 희소 행렬 연산으로 교체한다. GPU에서는 메모리 사용량이 크게 늘어나(특히 B‑mode에서 6 GB) 성능이 다소 저하되지만, 희소 연산이 지원되는 환경에서는 동적 인덱싱과 비슷한 처리량을 유지한다. 현재 TPU는 희소 연산을 지원하지 않아 실험이 불가능했다.
에너지 측정은 GPU에서만 수행했으며, 동적 인덱싱 변형이 가장 높은 전력 소모(≈0.05 J/run)를 보였다. 반면 완전 CNN 변형은 연산이 더 정형화돼 전력 효율이 개선되었다. 메모리 측면에서도 완전 CNN이 가장 낮은 피크 메모리(≈0.36 GB)로, 임베디드·실시간 시스템에 유리함을 확인했다.
전체적으로 이 논문은 포터블·결정론적 신호처리 파이프라인을 설계하고, 엔드‑투‑엔드 벤치마크를 통해 실제 임상·실시간 시스템에 필요한 성능 지표(처리량, 프레임 레이트, 에너지·메모리 효율)를 제공한다는 점에서 의의가 크다. 특히, TPU와 같은 특수 가속기에서도 동일 코드를 그대로 실행해 높은 처리량을 얻을 수 있다는 결과는, 향후 의료·레이다·소나 등 다양한 도메인에서 하드웨어 종속성을 최소화하고 인증 과정을 단축할 수 있는 길을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기