교차배선 메쉬 배열을 이용한 행렬 곱셈 효율성
초록
본 논문은 2차원 교차배선 메쉬 배열(Cross‑Wired Mesh, CWM)에서 n×n 행렬 곱셈을 수행할 때, 연속적인 연산을 반복하면 평균 수행 단계가 n에 수렴한다는 점을 증명한다. 기존 직교형 시스톨릭 배열과 비교해 데이터 흐름을 최적화하고, 파이프라인 효율을 극대화함으로써 대규모 행렬 연산에 높은 처리량을 제공한다는 결론을 제시한다.
상세 분석
교차배선 메쉬 배열은 전통적인 2차원 시스톨릭 배열과 달리 각 노드가 인접한 행과 열뿐 아니라 대각선 방향으로도 데이터를 교환하도록 설계되었다. 이러한 교차 연결은 행렬 곱셈의 기본 연산인 A의 행과 B의 열을 동시에 이동시켜, 각 단계에서 필요한 곱셈‑덧셈 연산을 완전하게 병렬화한다. 논문에서는 먼저 CWM의 구조적 특징을 상세히 설명하고, 각 프로세서가 입력 스트림을 받아 내부 레지스터에 저장한 뒤, 인접 노드와 교차된 데이터 흐름을 통해 곱셈 결과를 누적하는 과정을 수식으로 전개한다. 핵심은 파이프라인 초기화 단계에서 발생하는 ‘워밍업’ 비용이 전체 연산 횟수에 비해 무시할 만큼 작아진다는 점이다. 연속적인 행렬 곱셈을 수행할 경우, 첫 번째 행렬쌍이 전체 n단계에 걸쳐 완성된 뒤, 두 번째 행렬쌍은 첫 번째 연산이 진행되는 동시에 파이프라인에 투입된다. 결과적으로 각 행렬쌍당 평균 단계 수는 (2n‑1)/k 형태가 아니라, k가 충분히 클 때 n에 수렴한다. 여기서 k는 연속 연산의 개수이다. 논문은 이를 증명하기 위해 시간 복잡도 T(k)=n+ (k‑1)·Δt 형태의 모델을 제시하고, Δt가 1 단계에 해당함을 보인다. 또한, 메모리 대역폭과 노드 간 통신 지연을 고려한 실험 시뮬레이션 결과, 실제 하드웨어 구현에서도 이론적 평균 단계 수 n에 근접하는 성능을 확인하였다. 이러한 결과는 대규모 과학·공학 시뮬레이션, 머신러닝 모델 학습 등에서 반복적인 행렬 연산이 핵심인 워크로드에 CWM이 높은 효율성을 제공함을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기