메시 배열을 이용한 행렬 곱셈의 새로운 속도와 대칭성
초록
본 논문은 기존 3n‑2 단계가 필요한 표준 행렬 곱셈 배열에 비해, 메시 배열을 사용하면 2n‑1 단계만에 연산을 마칠 수 있음을 보인다. 또한 대칭 행렬에 특화된 3n/2+1 단계 구현과, 배열값의 대칭성을 이용한 효율 향상 및 스크램블링 시스템으로의 응용을 제시한다.
상세 분석
메시 배열은 n×n 행렬 곱셈을 수행하기 위해 2차원 격자 형태의 프로세서 네트워크를 활용한다. 각 프로세서는 입력 행렬 A와 B의 원소를 일정한 시차를 두고 받아들이며, 동시에 부분곱을 누적한다. 기존의 표준 배열은 행과 열을 순차적으로 이동시키면서 3n‑2 단계가 소요되는데, 이는 데이터 이동과 연산이 완전히 겹치지 못하기 때문이다. 반면 메시 배열은 데이터 흐름을 대각선 방향으로 설계해, 각 단계에서 A와 B의 원소가 동시에 도착하도록 함으로써 연산과 전파가 완전 병렬화된다. 결과적으로 전체 연산 단계는 2n‑1 로 감소한다.
특히 대칭 행렬 A = Aᵀ인 경우, 곱셈 C = A·Aᵀ에서 중복되는 계산이 발생한다. 논문은 이러한 중복을 제거하기 위해 대각선 대칭성을 이용한 데이터 재배치를 제안한다. 이 방법을 적용하면 필요한 단계 수가 3n/2+1 로 크게 줄어들어, 대칭 행렬 전용 애플리케이션(예: 그래프 라플라시안, 공분산 행렬)에서 실시간 처리가 가능해진다.
또한 배열 내부에서 생성되는 중간 결과는 특정 대칭 패턴을 보이며, 이는 스크램블링 시스템으로 활용될 수 있다. 입력 데이터를 메시 배열에 투입하면, 출력은 원본과 복잡하게 뒤섞인 형태가 되지만, 동일한 배열 구조와 역연산을 적용하면 원본을 정확히 복원할 수 있다. 이는 암호화와 오류 복구 분야에서 하드웨어 기반의 고속 스크램블러/디스크램블러로 활용될 가능성을 시사한다.
하드웨어 구현 측면에서는 각 프로세서가 단순한 곱셈‑덧셈 유닛과 로컬 레지스터만을 필요로 하므로, FPGA나 ASIC에 효율적으로 매핑될 수 있다. 데이터 전송은 인접 노드 간의 로컬 버스만으로 충분히 지원되며, 전력 소모와 레이턴시가 크게 감소한다. 이러한 구조적 장점은 대규모 행렬 연산이 빈번히 요구되는 과학·공학 시뮬레이션, 머신러닝 가속기, 실시간 영상 처리 등에 직접적인 이점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기