하이브리드 행동 강화학습 기반 양자 아키텍처 탐색
초록
본 논문은 양자 회로 설계와 파라미터 초기화를 동시에 최적화하는 하이브리드‑액션 강화학습 프레임워크 HyRLQAS를 제안한다. 이 에이전트는 이산적인 게이트 배치와 연속적인 회전 각 초기화를 하나의 정책으로 학습하며, VQE 환경에서 분자 기반 에너지 최소화를 목표로 한다. 실험 결과, 기존 QAS 방법보다 적은 게이트 수와 1e‑8 수준의 에너지 오차를 달성하고, 정책 기반 초기화가 후속 클래식 옵티마이저의 수렴 속도를 크게 가속한다는 점을 입증한다.
상세 분석
HyRLQAS는 기존 QAS 연구가 안고 있던 “구조 탐색 ↔ 파라미터 최적화”의 분리 문제를 근본적으로 해결한다. 구체적으로, 에이전트는 상태 sₜ를 텐서 기반 회로 인코딩으로 표현하고, 행동 aₜ를 (zₜ, xₜ) 형태의 하이브리드 액션으로 선택한다. 여기서 zₜ는 게이트 종류·위치를 정의하는 이산 변수이며, xₜ는 해당 게이트의 초기 회전 각을 나타내는 연속 변수이다. 정책 π(aₜ|sₜ)=π_d(zₜ|sₜ)·π_a(xₜ|sₜ)는 각각 디스크리트 헤드와 연속 헤드로 구성된 하이브리드 신경망에 의해 파라미터화된다.
디스크리트 헤드는 3N개의 단일‑큐빗 회전(RX, RY, RZ)과 N(N‑1)/2개의 CNOT을 포함하는 큰 액션 공간을 마스크 기법으로 효율적으로 축소한다. 연속 헤드는 선택된 회전 게이트에 대해 평균 µₜ와 표준편차 σₜ를 출력하는 가우시안 분포 N(µₜ,σₜ²)에서 샘플링한다. 또한, 새 게이트 삽입 시 기존 파라미터에 가우시안 증분 Δxₜ를 더하는 “리파인먼트” 메커니즘을 도입해, 회로가 성장함에 따라 파라미터가 동적으로 조정되도록 설계했다.
보상 함수는 VQE 에너지 Eₜ를 기반으로 하는 단계별 shaping과 목표 임계값 ξ 도달 시 ±5의 터미널 보상을 제공한다. ξ는 커리큘럼 학습에 의해 점진적으로 낮아지며, 에피소드 종료는 (i) 에너지 임계값 달성 또는 (ii) 최대 길이 ℓ 도달 두 조건 중 하나로 정의된다. 이러한 설계는 에이전트가 초기 단계에서 큰 탐색을 수행하고, 점차 정밀한 미세조정을 하도록 유도한다.
학습은 REINFORCE 기반 정책 그라디언트로 수행되며, 외부 클래식 옵티마이저(예: COBYLA, Adam)와의 협업을 통해 각 단계에서 현재 회로의 파라미터를 최적화한다. 중요한 점은 파라미터 초기화가 정책에 의해 사전 학습된 분포에서 샘플링되므로, 동일한 회로 구조라도 매 에피소드마다 무작위 초기화가 아니라 “지식 기반” 초기값을 제공한다. 이를 QNTK·dQNTK 분석과 연결해 보면, 정책이 만든 초기화는 커널 조건수를 개선하고, 그래디언트 소실을 완화해 최적화 안정성을 크게 높인다.
실험에서는 STO‑3G 기반 L I H, BeH₂, H₂O 세 분자를 대상으로 HyRLQAS와 기존 QAS(CR‑LQAS, TensorRL‑QAS, 진화 기반 방법) 및 베이스라인 하드웨어‑효율 ansatz를 비교했다. 결과는 (1) 동일한 게이트 수에서 평균 에너지 오차가 30‑50 % 감소, (2) 최종 회로가 1e‑8 이하의 화학 정확도(≈1 kcal/mol) 수준에 도달, (3) 후속 클래식 옵티마이저가 평균 40 % 적은 이터레이션으로 수렴함을 보여준다. 특히, “리파인먼트” 액션을 사용하지 않은 버전은 수렴 속도가 현저히 떨어져, 파라미터 재조정 메커니즘의 중요성을 실증한다.
전체적으로 HyRLQAS는 (i) 구조와 파라미터를 동시에 탐색함으로써 탐색 효율성을 극대화, (ii) 정책 기반 초기화가 최적화 경로를 유리하게 만든다는 이론적·실험적 근거 제공, (iii) 텐서 기반 회로 인코딩과 마스크된 액션 공간을 통해 스케일러블하게 N‑qubit 시스템까지 확장 가능하다는 점에서 기존 QAS 연구에 비해 큰 진보를 이룬다.
댓글 및 학술 토론
Loading comments...
의견 남기기