고속 재구성 가능한 FFT 설계
본 논문은 고대 인도 베다 수학의 우르드하 트리야크비암 알고리즘을 활용한 4×4 비트 승산기를 2×2 비트 승산기로 분할 구현하고, 이를 재구성 가능한 FFT 모듈에 적용하여 FPGA 상에서 높은 처리 속도와 작은 면적을 달성한 설계를 제시한다. 런타임 시 재구성 기능을 통해 전력 소비를 최소화한다.
초록
본 논문은 고대 인도 베다 수학의 우르드하 트리야크비암 알고리즘을 활용한 4×4 비트 승산기를 2×2 비트 승산기로 분할 구현하고, 이를 재구성 가능한 FFT 모듈에 적용하여 FPGA 상에서 높은 처리 속도와 작은 면적을 달성한 설계를 제시한다. 런타임 시 재구성 기능을 통해 전력 소비를 최소화한다.
상세 요약
본 연구는 디지털 신호 처리에서 핵심적인 역할을 하는 FFT 연산의 구현 효율성을 극대화하기 위해 베다 수학의 우르드하 트리야크비암(우르드하 삼각 곱셈) 알고리즘을 채택하였다. 이 알고리즘은 두 자리 수의 곱셈을 네 개의 1비트 곱셈과 몇 차례의 덧셈·시프트 연산으로 분해함으로써 하드웨어 구조를 단순화하고 병렬성을 높인다. 논문에서는 4비트 × 4비트 승산을 2비트 × 2비트 승산 유닛 네 개로 구성하고, 각 유닛은 동일한 우르드하 트리야크비암 회로를 사용한다. 이러한 모듈화는 재구성 가능성을 제공하는데, 필요에 따라 승산기 수를 동적으로 조절함으로써 연산 부하가 낮은 상황에서는 일부 유닛을 비활성화하여 전력 소모를 감소시킨다. FPGA 구현 단계에서는 Xilinx 시리즈를 대상으로 파이프라인 레지스터와 클럭 게이팅 기술을 결합해 최대 클럭 주파수를 250 MHz 이상으로 끌어올렸다. 면적 측면에서는 기존의 전통적 4×4 승산기 대비 약 30 % 적은 LUT와 DSP 블록을 사용했으며, 전체 FFT 모듈은 64‑point 구현에서 1.2 µs 이하의 처리 지연을 기록한다. 성능 비교 실험에서는 동일한 샘플 레이트와 비트 폭을 가진 표준 Cooley‑Tukey FFT와 대비해 평균 1.8배 이상의 스루풋 향상을 보였으며, 전력 측정에서는 최대 25 %의 절감 효과가 확인되었다. 그러나 2×2 승산기 자체의 딜레이가 누적될 경우 고차 FFT(예: 1024‑point)에서는 파이프라인 깊이가 증가해 레이턴시가 늘어날 수 있다는 한계점이 제시된다. 또한 베다 승산기의 정확도와 오버플로우 관리가 고정소수점 구현에서 추가적인 설계 고려사항으로 남아 있다. 전반적으로 본 논문은 베다 수학 기반 승산기의 구조적 장점을 FFT와 결합함으로써 재구성 가능하고 전력 효율적인 DSP 하드웨어 설계의 새로운 방향을 제시한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...