Eisenstein‑Jacobi 네트워크 결함 적응 라우팅을 위한 딥 강화학습
초록
본 논문은 6‑정규 대칭 토폴로지를 갖는 Eisenstein‑Jacobi(EJ) 인터커넥션 네트워크에서 결함 발생 시 라우팅 성능을 비교한다. 결정론적 그리디 적응 라우팅, 전역 토폴로지 정보를 이용한 Dijkstra 최적 라우팅, 그리고 다목적 보상 함수를 사용한 강화학습(RL) 기반 라우팅을 평가한다. 9개의 결함 노드 상황에서 그리디 라우팅은 도달 가능성이 10% 수준으로 급락하지만, RL 에이전트는 94%의 도달 가능성과 91%의 패킷 전달률을 달성한다. Dijkstra는 이론적 최적값인 52‑54%를 제공한다. 또한 RL은 모든 부하에서 90% 이상의 정규화 처리량을 유지하며, 혼잡 상황에서 Dijkstra를 능가하는 암묵적 부하 균형 효과를 보인다.
상세 분석
본 연구는 Eisenstein‑Jacobi(EJ) 토폴로지가 제공하는 6‑정규 구조와 복소수 좌표계가 라우팅 설계에 미치는 영향을 정밀히 분석한다. EJ 네트워크는 복소수 정수 α = a + bρ(ρ = e^{iπ/3})에 의해 정의된 노드 집합 V와, 각 노드가 여섯 방향(±1, ±ρ, ±ρ²)으로 연결되는 에지 집합 E로 구성된다. 이러한 구조는 전통적인 2D 메쉬나 토러스에 비해 평균 지름이 작고, 동일 규모에서 노드 수가 크게 증가한다는 장점을 제공한다. 그러나 결함이 발생하면 그리디 라우팅은 “지역 최소점”에 빠져 진행이 불가능해지는 현상이 빈번히 나타난다. 논문은 이 현상을 수학적으로 설명하기 위해 ρ‑택시캡 노름 Dα(β,γ)=min{|x|+|y|+|z| | β−γ≡x+yρ+zρ² (mod α)}을 도입하고, 결함이 없는 경우 그리디 라우팅이 최단 경로와 동일함을 증명한다. 결함이 존재할 때는 이 거리 단조성이 깨져 로컬 미니멈이 발생한다.
다음으로, 세 가지 라우팅 기법을 동일한 시뮬레이션 환경에서 비교한다. 첫 번째는 전통적인 그리디 적응 라우팅으로, 각 홉에서 현재 노드와 목적지 사이의 유클리드 거리를 계산하고, 가장 거리를 감소시키는 가용 이웃을 선택한다. 결함 이웃이 있거나 거리 감소가 불가능하면 패킷을 폐기한다. 두 번째는 Dijkstra 알고리즘으로, 전체 토폴로지와 결함 정보를 사전에 완전하게 알고 있다고 가정하고, O(|V| log |V|) 복잡도로 전역 최단 경로를 계산한다. 이는 이론적 최적 성능을 제공하지만, 실시간 라우팅에 적용하기엔 연산량과 상태 동기화 비용이 과다하다. 세 번째는 PPO 기반 강화학습(RL)이다. 각 라우터를 독립적인 에이전트로 모델링하고, 상태는 현재 좌표, 목적지 좌표, 6방향 가용성 마스크로 정의한다. 행동은 여섯 방향 중 하나를 선택하는 이산형이며, 보상은 목적지 도달 시 +100, 결함 노드 진입 시 –50, 매 홉당 –1의 스텝 비용을 부여하는 다목적 함수이다. 이 설계는 결함 회피와 경로 효율성을 동시에 최적화하도록 유도한다. 학습 과정에서는 Generalized Advantage Estimation(GAE)와 클리핑 파라미터 ε=0.2를 사용해 정책 업데이트의 안정성을 확보한다.
실험 결과는 결함 밀도가 9노드(≈ 2% 전체)일 때, 그리디 라우팅은 도달 가능성 10%와 패킷 전달률 10%에 머무는 반면, Dijkstra는 52‑54% 수준의 도달 가능성과 전달률을 보인다. RL 에이전트는 94% 도달 가능성과 91% 전달률을 기록하며, Dijkstra와 비교해 약 42% 포인트 차이이지만, 전역 토폴로지 정보를 요구하지 않는다. 또한 부하 테스트에서 RL은 0.1에서 0.9까지의 offered load 구간에서 정규화 처리량이 90% 이상 유지되었으며, 특히 높은 부하에서 Dijkstra가 발생시키는 경로 집중 현상(버퍼 포화)보다 더 균등한 트래픽 분산을 보여준다. 이는 RL 정책이 암묵적으로 부하 균형을 학습했기 때문으로 해석된다. 결함이 군집된 영역에서도 RL은 지역 최소점에 빠지지 않고, 대체 경로를 탐색해 패킷 손실을 최소화한다. 학습된 정책은 로컬 정보만으로도 전역적인 결함 회피와 효율적인 라우팅을 수행할 수 있음을 증명한다.
이러한 결과는 EJ와 같은 고차원 정규 토폴로지에서 전통적인 그리디 라우팅이 갖는 한계를 극복하고, 전역 최적 알고리즘의 연산 복잡도를 회피하면서도 실용적인 수준의 성능을 달성할 수 있음을 시사한다. 특히, NoC와 같은 대규모 다코어 시스템에서 라우터마다 독립적인 RL 에이전트를 배치하면, 결함 발생 시 실시간으로 적응하고, 네트워크 전체의 신뢰성을 크게 향상시킬 수 있다. 향후 연구에서는 에이전트 간 협업 메커니즘, 다중 목적(전력, 지연) 최적화, 그리고 실제 하드웨어 구현을 통한 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기