실리콘 포토닉스로 가속하는 확산 모델
초록
**
본 논문은 확산 모델(Diffusion Model)의 고연산·고에너지 문제를 해결하기 위해 실리콘 포토닉스 기반 가속기를 설계·시연하였다. 비동기 파장다중화(WDM)와 마이크로링 공명기(MR)를 이용한 광학 MAC 연산을 구현해 UNet·멀티헤드 어텐션 연산을 광학적으로 처리하고, 전자 제어 유닛(ECU)으로 메모리 인터페이스와 파라미터 매핑을 담당한다. 실험 결과, 기존 전자 가속기 대비 3배 이상의 에너지 효율과 5.5배 이상의 처리량을 달성하였다.
**
상세 분석
**
이 논문은 확산 모델(DM)의 핵심 연산인 UNet 기반 컨볼루션과 멀티헤드 어텐션(MHA)을 광학적으로 구현함으로써 전통적인 전자식 가속기의 한계를 극복하고자 한다. 먼저, 확산 모델은 순방향에서 노이즈를 단계적으로 추가하고 역방향에서 학습된 UNet을 통해 노이즈를 제거하는 반복적인 프로세스를 갖는다. 각 단계마다 수천 개의 매트릭스‑벡터 곱셈(MAC)과 정규화·소프트맥스 연산이 필요하며, 이는 현재 GPU·FPGA 기반 가속기에서 높은 전력 소모와 지연을 초래한다.
실리콘 포토닉스는 파장다중화(WDM)와 마이크로링 공명기(MR)를 활용해 광학 신호의 위상·진폭을 정밀하게 조절함으로써 대규모 MAC 연산을 병렬화한다. 비동기 방식에서는 서로 다른 파장을 가진 광 신호가 동일한 파장 가이드에 동시에 전파되며, 각 MR이 특정 파장의 공명 조건을 변조해 가중치를 인코딩한다. 입력 활성화는 첫 번째 MR 뱅크에서, 가중치는 두 번째 MR 뱅크에서 각각 변조된 뒤, 광 검출기(PD)에서 전기 신호로 변환되어 누적된다. 이 과정은 전통적인 전자 연산에서 발생하는 데이터 이동 비용을 광학 전송으로 대체함으로써 대역폭·전력 효율을 크게 향상시킨다.
또한, 논문은 MR 튜닝 회로를 EO(전기광)와 TO(열광) 방식의 하이브리드로 설계하였다. EO 튜닝은 나노와트 수준의 전력으로 수 나노초 응답을 제공해 미세 파장 조정에 적합하고, TO 튜닝은 마이크로초 수준이지만 넓은 파장 범위를 제공해 온도 변동 등 환경 변화에 대한 보정 역할을 한다. 이 두 방식을 Thermal Eigenmode Decomposition(TED) 기법과 결합해 인접 MR 간 간섭을 최소화하고 전체 전력 소모를 억제한다.
아키텍처 측면에서 저자는 Residual Unit과 MHA Unit을 각각 두 개의 MR 뱅크 배열(행×열)로 구현하였다. 각 블록은 입력 활성화와 가중치를 별도 뱅크에 인코딩한 뒤, 균형 검출기(BPD)를 통해 양·음 신호를 차분해 부호를 보존한다. 이는 확산 모델에서 요구되는 정규화(Group Normalization)와 소프트맥스 연산을 광학적으로 구현할 수 있게 한다. 전자 제어 유닛(ECU)은 메모리 인터페이스, 데이터 버퍼링, 그리고 매트릭스‑광학 매핑을 담당하며, VCSEL 배열을 재사용해 레이저 전력 소비를 최소화한다.
실험 결과는 두 가지 주요 지표에서 기존 전자 가속기 대비 우수함을 보인다. 첫째, 에너지 효율은 최소 3배 향상되었으며, 이는 MR 튜닝 전력·광 검출기 전력·레이저 전력 최적화가 결합된 결과이다. 둘째, 처리량은 5.5배 증가했는데, 이는 파장다중화에 의한 동시 MAC 연산과 파이프라인 설계가 주요 원인이다. 또한, 다양한 확산 모델(DDPM, LDM, Stable Diffusion)에서 동일한 가속 구조가 적용 가능함을 보이며, 모델별 연산 특성(컨볼루션 중심 vs 어텐션 중심)에 따라 MR 배열 크기와 파장 수를 조절해 유연성을 확보한다.
결론적으로, 이 연구는 실리콘 포토닉스가 고차원 행렬 연산을 대규모 병렬화함으로써 차세대 생성 AI 워크로드를 저전력·고속으로 처리할 수 있음을 실증하였다. 향후 연구는 온칩 광학 메모리(PIM)와 더 높은 파장 수용량을 갖는 WDM 기술을 결합해 메모리 대역폭 병목을 완전히 해소하고, 온도·공정 변동에 강인한 자동 보정 메커니즘을 도입함으로써 대규모 데이터센터 수준의 실용화를 목표로 할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기