시간분할 다중팔 밴딧 해결을 위한 레이저 혼돈 기반 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 레이저 혼돈 신호의 초고속 진동을 시간분할 다중화(TDM)하여 다중팔 밴딧 문제를 해결하는 확장 가능한 강화학습 프레임워크를 제시한다. 2‑팔에서 64‑팔까지의 밴딧을 실험적으로 해결했으며, 서로 다른 물리적 조건에서 생성된 혼돈 시계열의 확산성(diffusivity)이 성능에 미치는 영향을 정량적으로 분석하였다.

상세 분석

본 논문은 기존 레이저 혼돈 기반 2‑팔 밴딧 구현이 갖는 확장성 한계를 극복하기 위해 ‘시간분할 다중화(time‑division multiplexing, TDM)’라는 새로운 파이프라인 원리를 도입하였다. 레이저 혼돈은 반도체 레이저 혹은 광섬유 레이저에 외부 피드백을 가함으로써 수십 GHz 이상의 대역폭을 가진 비선형 시계열을 생성한다. 이러한 시계열은 확률적 탐색(exploration)과 이용(exploitation) 사이의 트레이드오프를 자연스럽게 구현할 수 있는 ‘무작위성’과 ‘자기상관’ 특성을 동시에 보유한다.

TDM은 연속적인 레이저 혼돈 파형을 일정한 시간 슬롯으로 구분하고, 각 슬롯을 개별 밴딧 팔에 매핑한다는 개념이다. 예를 들어 64‑팔 밴딧을 구현하려면 1 ns 이하의 샘플링 간격으로 64개의 슬롯을 정의하고, 각 슬롯에 대응하는 보상값을 실시간으로 업데이트한다. 이렇게 하면 물리적으로는 하나의 레이저만 사용하지만, 논리적으로는 64개의 독립적인 의사결정 엔진을 동시에 운영할 수 있다.

실험에서는 두 종류의 레이저(반도체 레이저와 광섬유 레이저)를 각각 다른 피드백 강도와 온도 조건에서 구동하여 네 가지 혼돈 시계열을 확보하였다. 각 시계열의 확산성(시간적 변동성)을 정량화하기 위해 평균 제곱 변위(MSD)와 자기상관 함수(ACF)를 측정했으며, 이 값이 클수록 탐색 능력이 강화되는 경향을 보였다. 실제 밴딧 실험에서는 보상 확률이 0.1~0.9 사이에서 무작위로 변하는 환경을 10 000 회 반복했으며, 성공률(최적 팔 선택 비율)과 누적 보상률을 주요 지표로 삼았다.

결과적으로, 확산성이 높은 레이저 혼돈(예: 높은 피드백 강도, 온도 변동이 큰 경우)은 초기 탐색 단계에서 빠르게 최적 팔을 식별했으며, 장기적으로도 누적 보상이 가장 높았다. 반면 확산성이 낮은 시계열은 초기 수렴이 느리지만, 수렴 후에는 안정적인 선택을 유지했다. 이러한 차이는 강화학습에서 ‘탐색‑이용 균형’ 파라미터를 물리적 파라미터로 직접 조절할 수 있음을 시사한다.

또한, 2‑팔에서 64‑팔까지 확장했을 때 성능 저하가 거의 없었으며, 이는 TDM이 슬롯 간 간섭을 최소화하고, 레이저 혼돈의 고유 대역폭을 효율적으로 활용했기 때문이다. 시스템 지연은 전자‑광 변환 및 FPGA 기반 실시간 처리에 의해 100 ps 수준으로 억제되었으며, 전체 의사결정 주기는 10 ns 이하로 측정되었다. 따라서 기존 전자 기반 강화학습 가속기(µs~~ms 수준)와 비교해 4~~5 orders of magnitude 빠른 속도를 달성했다.

이와 같은 물리‑계산 융합 접근은 초고속 실시간 제어, 광통신 네트워크 자원 할당, 그리고 양자‑광학 기반 인공지능 하드웨어 설계 등에 직접적인 응용 가능성을 제공한다. 특히, 레이저 혼돈의 무작위성을 이용한 ‘하드웨어 난수 생성’과 ‘확률적 정책 업데이트’를 하나의 통합 회로에서 구현함으로써 에너지 효율성도 크게 향상될 것으로 기대된다.

시간분할 다중팔 밴딧 해결을 위한 레이저 혼돈 기반 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기