강화학습으로 비클리포드 게이트 최소화하기

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 강화학습(RL) 기반 프레임워크를 이용해 Clifford+T와 Clifford+CS 게이트 집합으로 정확히 구현 가능한 유니터리를 합성하면서, 각각의 T‑count와 CS‑count를 최소화한다. 채널 표현을 정수 형태로 변환하고, 생성 집합의 크기를 크게 축소하며, 코사인 정규화와 가지치기 휴리스틱을 도입해 탐색 복잡도를 낮춘다. 2‑qubit 유니터리의 경우 최대 100개의 T 게이트까지 거의 최적에 가까운 분해를 달성했으며, 기존 최첨단 방법보다 5배 큰 규모를 더 짧은 시간에 성공적으로 합성한다. 또한 1‑qubit T‑count 최적 알고리즘을 재현하고, 제어 사이클 이동, 제어 가산기, 곱셈기 등 주요 프리미티브의 비클리포드 게이트 수를 현저히 감소시킨다.

상세 분석

이 연구는 양자 회로 합성 문제를 강화학습(RL)으로 접근한 최신 시도 중 가장 실용적인 성과를 보여준다. 핵심 아이디어는 유니터리를 복소수 행렬이 아닌 ‘채널 표현’이라는 4ⁿ×4ⁿ 실수 행렬로 변환하고, 이 행렬의 원소를 정수와 √2, ½ 등 제한된 알제브라적 형태로 표현함으로써 연산 비용을 크게 낮춘다. 기존 AI 기반 합성 방법은 복소수 행렬을 직접 다루어 연산량이 급증했지만, 정수 기반 저장 구조와 전용 곱셈·역연산 알고리즘을 도입해 메모리와 시간 복잡도를 O(poly(n, T)) 수준으로 압축한다.

또한 논문은 Clifford+T와 Clifford+CS 각각에 대해 ‘생성 집합 G_T, G_CS’를 정의한다. G_T는 Pauli 연산자 P에 대해 R(P)=½(I+e^{iπ/4}P) 형태의 유니터리이며, |G_T|=4ⁿ−1 로 기존 O(3ⁿ·|C_n|) 규모보다 지수적으로 작다. G_CS는 두 개의 서로 교환 가능한 Pauli 연산자 (P₁,P₂)를 이용해 정의되며, 크기는 O(n²·16ⁿ) 수준이다. 이러한 작은 생성 집합을 이용하면 탐색 공간이 급격히 감소한다.

RL 에이전트는 상태를 현재 채널 행렬, 행동을 G_T 혹은 G_CS 원소 중 하나 선택, 보상은 비클리포드 게이트 수 감소와 목표 유니터리와의 거리(예: Frobenius norm) 개선으로 설계된다. 훈련 단계와 테스트 단계 모두에서 ‘코사인 정규화’를 적용해 동일한 코사인 클래스를 대표하는 표준 형태로 변환한다. 이는 동일한 유니터리를 여러 번 탐색하지 않게 하여 효율을 높인다. 또한 ‘가지치기 휴리스틱’으로 현재까지 사용된 비클리포드 게이트 수가 최적 상한을 초과하면 해당 경로를 폐기한다. 이러한 전략은 탐색 트리의 깊이를 실질적으로 제한한다.

실험 결과는 두 가지 측면에서 두드러진다. 첫째, 2‑qubit Clifford+T 합성에서 최대 100개의 T 게이트까지 거의 최적에 근접한 분해를 달성했으며, 이는 기존 RL 기반 방법이 20~25개 정도만 다룰 수 있던 것에 비해 5배 이상 규모가 확대된 것이다. 둘째, 2‑qubit Clifford+CS 합성에서는 선형 시간 복잡도를 보이며, 이는 이전에 SO(6) 표현을 사용해 얻은 결과와 동등하지만, 채널 기반 구현으로 더 간단하고 확장성이 높다.

또한, 논문은 제어 사이클 이동(cyclic shift), 제어 가산기(adder), 정수 곱셈기(multiplier)와 같은 중요한 양자 알고리즘 구성 요소에 대해 비클리포드 게이트 수를 각각 43 %, 14.3 %, 14 % 감소시킨 사례를 제시한다. 이때 추가 ancilla qubit을 사용하지 않아 실용적인 오류 정정 비용 절감에 직접 기여한다.

마지막으로, 1‑qubit T‑count 최적 알고리즘을 RL 에이전트가 재현함으로써, 기존에 알려진 선형 복잡도(θ(T)) 알고리즘과 동일한 성능을 보임을 확인한다. 이는 RL이 단순히 휴리스틱을 제공하는 수준을 넘어, 이론적으로 최적인 알고리즘을 학습할 수 있음을 의미한다. 전체적으로 이 논문은 정수 기반 채널 표현, 축소된 생성 집합, 코사인 정규화 및 효율적인 가지치기 전략을 결합한 RL 프레임워크가 비클리포드 게이트 최적화 문제에 강력하고 확장 가능한 솔루션을 제공한다는 점을 입증한다.

강화학습으로 비클리포드 게이트 최소화하기

초록

상세 분석

댓글 및 학술 토론

의견 남기기