강화학습으로 설계한 변분 양자 회로와 새로운 R sub yz /sub 연결 안사츠

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 강화학습(RL) 에이전트를 이용해 최적화 문제용 변분 양자 회로(Ansatz)를 자동으로 생성한다. 최대 컷, 최대 클리크, 최소 정점 커버 등 다양한 그래프 문제에 대해 학습시킨 결과, 특히 최대 컷에 대해 규칙적인 구조의 R_yz‑연결 안사츠를 발견하였다. 이 안사츠는 기존 QA‑OA 변형보다 얕은 깊이와 적은 파라미터로 높은 근사 비율을 달성한다는 실험적 증거를 제시한다.

상세 분석

**
논문은 먼저 변분 양자 알고리즘(VQA)의 핵심 과제인 ‘적절한 안사츠 설계’를 문제화한다. 기존 접근법은 문제 특성(대칭, 그래프 구조 등)을 활용하거나, ADAPT‑VQE·ADAPT‑QAOA와 같이 회로를 단계적으로 확장하는 적응형 방법에 의존한다. 그러나 이러한 방법은 도메인 지식에 크게 좌우되며, 탐색 공간이 방대해지면 수렴에 필요한 회로 실행 횟수가 급증한다. 저자들은 이를 극복하기 위해 강화학습, 특히 Proximal Policy Optimization(PPO) 기반 에이전트를 설계하였다. 에이전트의 상태는 현재 회로(초기에는 전부 Hadamard 레이어)와 문제 인스턴스(그래프 인접 행렬 등)의 특징 벡터이며, 행동은 단일 회전 R_i^a(θ)와 이중 회전 R_ij^ab(θ) 두 종류의 게이트 삽입이다. 보상 함수는 (i) 회로 실행 후 얻은 비용 함수값(예: QUBO 목표값)의 개선 정도, (ii) 회로 깊이·파라미터 수에 대한 페널티, (iii) 에피소드 종료 시 근사 비율을 종합해 정의한다. 이렇게 하면 에이전트는 “짧고 효과적인” 회로를 스스로 탐색하게 된다.

학습 과정에서 최대 컷 문제에 특화된 인스턴스들을 반복적으로 제공했을 때, 에이전트는 일정한 패턴을 보이는 회로 구조를 자주 생성한다. 이 구조는 모든 쿼비트 사이를 R_yz(θ) 게이트(즉, y‑축 회전 후 z‑축 회전으로 구성된 이중 회전)로 연결하는 형태이며, 저자들은 이를 ‘R_yz-connected’ 안사츠라고 명명한다. 특히 ‘Linear’ 변형은 R_yz 게이트를 선형 체인 형태로 배치해, 하드웨어 구현 시 CNOT·CZ 대신 파라미터화된 R_zz 게이트와 단일 회전으로 변환이 가능하도록 설계하였다. 실험 결과, 이 Linear 회로는 깊이 p = 13 수준에서도 최대 컷에 대해 0.95 이상(대규모 무작위 그래프 기준)의 근사 비율을 달성했으며, 기존 QA‑OA(p=1)·ma‑QAOA·QA‑OA+와 비교해 파라미터 수는 3050% 감소하면서도 성능은 동등하거나 우수했다. 반면 최대 클리크·최소 정점 커버와 같은 문제에서는 R_yz-connected 구조가 충분히 일반화되지 않아 성능 격차가 나타났다.

또한 저자들은 에이전트가 학습 중에 발견한 회로들의 ‘전이 규칙’을 분석했다. 초기 단계에서는 무작위 게이트 삽입이 주를 이루지만, 보상이 크게 상승하는 시점부터는 특정 쿼비트 쌍에 반복적으로 R_yz 게이트를 배치하는 경향이 강화된다. 이는 R_yz 게이트가 비용 해밀토니안의 이진 상호작용을 직접적으로 인코딩하면서도, 파라미터 공간을 효율적으로 탐색하게 해주는 특성 때문으로 해석된다. 더불어, 이 구조는 ‘바넬 플래토(barren plateau)’ 현상을 완화시키는 효과도 관찰되었는데, 이는 파라미터 수가 적고 회로 깊이가 얕아 그라디언트 소실이 감소하기 때문이다.

기술적 한계로는 (1) 현재 에이전트가 그래프 크기 n > 20 정도에서 학습 효율이 급격히 떨어진다(액션 공간이 O(n²)로 급증). (2) 보상 설계가 비용 함수 개선에 과도히 편중돼, 다른 종류의 최적화 문제(예: 비이진 QUBO)에는 바로 적용하기 어렵다. (3) 하드웨어 노이즈 모델을 고려하지 않은 시뮬레이션 기반 평가이므로, 실제 양자 디바이스에서의 실행 결과는 추가 검증이 필요하다. 그럼에도 불구하고, ‘RL‑VQC’ 프레임워크는 기존 적응형 VQA와 차별화된 ‘데이터‑드리븐’ 회로 설계 방식을 제시하며, 특히 구조가 규칙적인 문제(최대 컷 등)에서 강력한 성능을 보인다.

강화학습으로 설계한 변분 양자 회로와 새로운 R sub yz /sub 연결 안사츠

초록

상세 분석

댓글 및 학술 토론

의견 남기기