양자 메모리를 가진 프로세스에 대한 강화학습

1. 서론에서는 강화학습(RL)이 고전 시스템에서 어떻게 탐험‑활용 트레이드오프를 다루는지 소개하고, 양자 시스템에서는 관측 불가능한 내부 상태와 측정에 의한 교란 때문에 기존 POMDP 모델이 직접 적용되지 않음을 지적한다. 특히, 비 i.i.d. 양자 상태열에서 자유 에너지를 추출하는 작업 추출 문제를 동기부여 사례로 제시한다. 2. 입력‑출력 양자 히든 마코프 모델(QHMM)을 정의한다. QHMM은 (i) 차원 \(S\) 의 숨겨진 양자 메모리 \(\rho_t\), (ii) 미지의 CPTP 채널 \(\mathcal{E}_t\) 로 구성된 메모리 진화, (iii) 에이전트가 선택하는 행동 \(a_t\) 에 대응하는 양자 계측기 \(\mathcal{P}(a_t)=\{\Phi_{o}^{(a_t)}\}_{o}\) 로 이루어진다. 각 라운드에서 관측값 \(o_t\)와 보상 \(r_t(a_t,o_t)\)가 생성되고, 에이전트는 정책 \(\pi(\cdot|\tau_{t})\) 로 다음 행동을 결정한다. 목표는 \(K\) 회의 독립적인 에피소드에 걸친 누적 기대 보상을 최대화하거나, 누적 레지스트 \(\text{Regret}(K)=\sum_{k=1}^{K}(V^{*}-V^{\pi_k})\) 를 최소화하는 것이다. 3. 관측 가능한 연산자 모델(OOM) 섹션에서는 물리적 파라미터 대신 관측 가능한 궤적 확률을 선형 연산자들의 곱으로 표현한다. “undercomplete” 가정(관측 연산자 집합의 차원이 메모리 차원보다 작음)을 두어 OOM이 식별 가능하도록 한다. OOM은 파라미터 자유도 \(d\) 를 정의하고, 이를 기반으로 학습 이론을 전개한다. 4. 낙관적 최대우도 추정(OMLE) 알고리즘을 제시한다. 매 라운드마다 현재 데이터에 대한 로그우도 \(\ell(\theta)\) 를 최대화해 추정 파라미터 \(\hat\theta\) 를 얻고, 신뢰구간 \(\mathcal{C}_t\) 를 확장해 낙관적 보상 상한 \(\overline{Q}_t(a)\) 를 계산한다. 행동 선택은 \(\arg\max_a \overline{Q}_t(a)\) 로 수행된다. 이 과정에서 양자 회복 맵을 이용해 추정 오차가 다음 단계에 미치는 영향을 제어한다. 5. 이산 행동 공간에 대한 레지스트 분석에서는 파라미터 임베딩 차원 \(\dim(\Theta)=d\) 와 엘루더 차원 \(\text{dim}_E(\mathcal{F})= \tilde O(d)\) 를 이용한다. 오류 전파를 양자 회복 맵 \(\mathcal{R}\) 로 묶어 \(\| \rho_t - \hat\rho_t\|_1 \le \epsilon_t\) 를 보장하고, 이를 통해 레지스트를 \(\widetilde{O}(\sqrt{K})\) 로 제한한다. 6. 연속 행동 공간(일반적인 POVM) 확장에서는 행동을 연속 파라미터 \(\alpha\in\mathbb{R}^m\) 로 매핑하고, 스팬 차원 \(\text{span}(\mathcal{A})\) 를 정의한다. 연속 OMLE는 매 단계마다 파라미터 공간을 \(\epsilon\)-그리드로 근사하고, 리프시츠 연속성 \(\|Q(\alpha)-Q(\alpha')\|\le L\|\alpha-\alpha'\|\) 를 이용해 샘플 복잡도를 제어한다. 동일한 엘루더 차원 분석을 적용해 레지스트 경계가 동일하게 \(\widetilde{O}(\sqrt{K})\) 가 된다. 7. 정보이론적 하한에서는 다중 팔 양자 밴드릿(MAQB) 문제와 SIC‑POVM을 이용해 QHMM을 하위 문제로 감소시킨다. MAQB에 대한 알려진 하한 \(\Omega(\sqrt{K})\) 를 그대로 가져와 QHMM에서도 \(\Omega(\sqrt{K})\) 의 레지스트가 필요함을 증명한다. 또한, 고전 POMDP와의 연결을 통해 관측 파라미터에 대한 별도 하한을 도출한다. 8. 물리적 응용으로 상태‑무관 작업 추출을 다룬다. 비 i.i.d. 양자 상태열이 QHMM에 의해 생성될 때, 에이전트가 최적 정책이 아닌 경우 발생하는 열역학적 소산 \(\Delta\) 가 정확히 레지스트와 동일하게 정의된다. OMLE 기반 정책은 과거 에너지 측정값을 이용해 작업 추출 프로토콜을 적응적으로 개선하고, 누적 소산을 \(\widetilde{O}(\sqrt{K})\) 로 억제한다. 이는 장기 평균 소산률을 0 으로 만드는 “적응형 맥스웰 악마”와 동등하다. 9. 수치 실험에서는 작은 차원의 QHMM에 대해 동적 프로그래밍으로 최적 정책을 계산하고, 제안된 OMLE와 기존 탐험‑활용 전략을 비교한다. 실험 결과는 이론적 레지스트 경계와 일치하며, 연속 행동 공간에서도 알고리즘이 안정적으로 수렴함을 보여준다. 10. 결론에서는 본 연구가 양자 메모리를 포함한 동적 환경에서의 강화학습 이론을 처음으로 완전하게 구축했으며, 정보‑열역학적 응용까지 연결한 점을 강조한다. 향후 연구 방향으로는 다중 에이전트 양자 시스템, 부분 관측 가능한 양자 메모리, 그리고 실험적 구현을 제시한다.

양자 메모리를 가진 프로세스에 대한 강화학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기