학습된 가젯을 활용한 강화학습으로 실제 양자 하드웨어에서 어려운 문제 해결

학습된 가젯을 활용한 강화학습으로 실제 양자 하드웨어에서 어려운 문제 해결
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 강화학습(RL)과 프로그램 합성 기법을 결합한 “가젯 강화학습(GRL)” 프레임워크를 제안한다. GRL은 간단한 문제에서 자주 등장하는 게이트 시퀀스를 가젯이라 부르는 복합 게이트로 추출하고, 이를 행동 공간에 추가함으로써 하드웨어 네이티브 게이트만을 사용해도 더 복잡한 양자 회로를 효율적으로 설계한다. TFIM과 양자 화학(H₂) 사례에서 2‑쿼비트 수준의 가젯을 학습해 10‑쿼비트까지 확장했으며, IBM Heron 프로세서의 네이티브 게이트셋에 바로 매핑되는 컴팩트한 회로를 얻었다.

상세 분석

GRL은 기존 RL 기반 양자 회로 설계가 직면한 “고정된 행동 집합”과 “희소 보상” 문제를 근본적으로 완화한다. 먼저, 에이전트는 기본 게이트(RZ, SX, X, CZ)만을 사용해 작은 규모(2‑쿼비트) TFIM의 약한 전계(h=10⁻³)에서 최적 회로를 탐색한다. 탐색 과정에서 얻어진 상위 k개의 회로를 프로그램 합성 모듈에 입력하면, 빈번히 등장하는 게이트 패턴을 타입드 λ‑계산식으로 표현하고, 구문 트리를 기반으로 가장 높은 로그‑우도와 짧은 길이를 동시에 만족하는 “가젯”을 추출한다. 이 가젯은 1‑쿼비트 혹은 2‑쿼비트 복합 연산으로, 네이티브 게이트 집합에 이미 포함된 연산이지만 하나의 행동으로 묶여 행동 차원을 확장한다.

가젯이 행동 공간에 추가되면, 에이전트는 기존의 원시 게이트 시퀀스를 재구성할 필요 없이 고수준 블록을 직접 선택한다. 이는 탐색 트리의 깊이를 크게 줄이고, 보상이 희소해지는 상황에서도 빠르게 목표 에너지 임계값(ζ) 이하로 수렴하도록 만든다. 특히, GRL은 “커리큘럼 RL”과 결합해 단계별 난이도 상승(전계 h를 점진적으로 증가) 동안 가젯을 재학습·재사용함으로써 샘플 효율성을 극대화한다.

실험 결과는 두 가지 측면에서 의미 있다. 첫째, 동일한 계산 예산(에피소드 수) 하에서 기존 RL(고정 행동 집합) 대비 TFIM의 h=1, 3‑쿼비트 시스템에서 에너지 오차가 2배 이상 감소하였다. 둘째, 가젯을 포함한 회로는 IBM Heron의 네이티브 게이트셋에 바로 매핑되므로 추가 트랜스파일링 비용이 없으며, 연결성 최적화 덕분에 실제 디바이스에서 잡음에 대한 내성이 향상된다. 양자 화학 H₂ 분자에 대해서도 2‑쿼비트 가젯을 학습한 뒤 3‑쿼비트 문제에 적용했을 때, 가젯 없는 경우보다 평균 에너지 오차가 약 30 % 감소하였다.

기술적 관점에서 주목할 점은 (1) 텐서 기반 회로 인코딩을 활용해 상태 표현을 압축하고, (2) 이진 텐서 차원을 가젯 삽입에 따라 동적으로 확장함으로써 RL 네트워크 구조를 재설계하지 않아도 된다. 또한, 프로그램 합성 단계에서 사용된 “문법 점수”는 사용 빈도와 복잡도 사이의 트레이드오프를 정량화해, 실제 하드웨어 제약을 반영한 실용적인 가젯을 선택한다는 점이 혁신적이다.

전반적으로 GRL은 “학습된 재사용 가능한 회로 블록”이라는 새로운 설계 패러다임을 제시한다. 이는 양자 알고리즘과 하드웨어의 공동 설계(co‑design) 흐름을 촉진하고, 향후 더 큰 규모의 NISQ 디바이스에서 VQA, 양자 시뮬레이션, 최적화 문제 등에 적용 가능한 확장성을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기