강화학습 기반 양자 노이즈 모델링
초록
본 논문은 강화학습(RL) 에이전트를 이용해 실제 양자 칩의 노이즈를 자동으로 학습하고, 이를 시뮬레이션에 적용할 수 있는 모델을 제안한다. 기존의 무작위 벤치마킹(RB)이나 휴리스틱 노이즈 모델보다 유연하게 다양한 노이즈 채널을 재현하며, 초전도 큐비트 실험에서도 높은 예측 정확도를 보였다.
상세 분석
이 연구는 양자 컴퓨팅에서 필수적인 노이즈 모델링 문제를 강화학습이라는 최신 머신러닝 기법으로 해결하고자 한다. 저자들은 먼저 양자 회로에서 발생하는 대표적인 오류를 크게 코히런트와 인코히런트 두 종류로 구분하고, 각각을 회전 게이트, 디포라리제이션, 감쇠 채널 등 제한된 파라미터 집합으로 표현한다. 전통적인 RB 방식은 전체 오류를 평균적인 디포라리제이션 채널로 압축하지만, 이는 개별 게이트의 특수한 오류나 비마코프성 상관관계를 놓치게 된다.
강화학습 에이전트는 MDP 형태로 정의되며, 상태 S는 현재 시뮬레이션된 양자 상태와 실행된 게이트 시퀀스, 행동 A는 노이즈 채널의 파라미터(예: λ, γ 등)를 선택하는 것이다. 보상 R은 에이전트가 생성한 노이즈 모델이 실제 하드웨어에서 측정된 출력 분포와 얼마나 일치하는가에 기반한다. 저자들은 정책 신경망을 사용해 연속적인 파라미터 공간을 탐색하고, PPO(Proximal Policy Optimization)와 같은 안정적인 정책 최적화 알고리즘을 적용해 학습 안정성을 확보하였다.
실험에서는 두 가지 시나리오를 검증한다. 첫째, 시뮬레이션 환경에서 임의로 생성한 노이즈 파라미터를 RL 에이전트가 정확히 복원하는지 확인했으며, 평균 복원 오차가 5 % 이하로 수렴했다. 둘째, 실제 아부다비 TII 초전도 큐비트 5‑큐비트 장치에 대해 RB 로 추정한 평균 게이트 피델리티와 비교했을 때, RL 기반 모델이 평균 서바이벌 확률을 1.8 % 더 정확히 예측하였다. 또한, 제안된 모델을 Qibo 프레임워크에 통합해 VQE, QAOA 등 유명 양자 알고리즘에 적용했을 때, 실제 하드웨어와 시뮬레이션 간의 성능 격차가 기존 디포라리제이션 모델 대비 30 % 이상 감소하였다.
이 논문의 주요 기여는 (1) 노이즈 모델링에 대한 사전 가정을 최소화하고, (2) 강화학습을 통해 하드웨어‑특화된 노이즈 채널을 자동으로 학습함으로써 확장성을 확보한 점이다. 다만, 현재 에이전트의 행동 공간이 제한적이며, 다중 큐비트 상관노이즈를 완전히 포착하기 위해서는 더 복잡한 채널 집합과 고차원 정책 네트워크가 필요하다는 한계도 언급한다.
댓글 및 학술 토론
Loading comments...
의견 남기기