물리 기반 콜모고로프 아놀드 네트워크를 활용한 금융 딥 강화학습 포트폴리오 최적화
초록
본 논문은 물리‑인포메드 콜모고로프‑아놀드 네트워크(PIKAN)를 기존 DRL 알고리즘의 액터·크리틱에 도입해 포트폴리오 최적화를 수행한다. KAN의 B‑스플라인 기반 단변량 함수로 파라미터 효율성과 해석성을 높이고, 뉴턴 제2법칙에 착안한 2차 시간 일관성 정규화 손실을 추가해 행동과 수익 동역학을 정합시킨다. 미국·중국·베트남 3개 시장에서 실험한 결과, PIKAN 기반 에이전트는 누적 수익, 연간 수익, 샤프·칼마 비율 및 최대 손실 면에서 기존 DRL 및 전통 포트폴리오 방법을 모두 능가하며 학습 안정성도 크게 향상된다.
상세 분석
이 연구는 두 가지 혁신적 요소를 결합한다. 첫째, 최근 제안된 Kolmogorov‑Arnold Network(KAN)를 액터와 크리틱의 기본 구조로 채택한다. KAN은 다변량 함수를 가변적인 단변량 B‑스플라인 합으로 분해함으로써 MLP 대비 파라미터 수를 70 % 이상 절감하고, 각 스플라인의 형태가 직접 해석 가능해 모델 투명성을 제공한다. 둘째, 물리‑인포메드 손실을 설계해 금융 시계열에 뉴턴 제2법칙을 은유적으로 적용한다. 구체적으로, 자산 수익률을 ‘속도’, 포트폴리오 비중 변화를 ‘가속도’에 대응시키고, 관측된 수익률의 1차·2차 차분과 에이전트가 생성한 비중 변동 사이의 차이를 최소화하는 L2 정규화 항을 추가한다. 이 손실은 기존의 정책 손실과 가중합으로 최적화되며, 학습 초기에 물리 손실 비중을 크게 두어 급격한 포트폴리오 재조정을 억제하고, 점진적으로 정책 손실 비중을 늘려 수익성을 확보한다.
알고리즘 측면에서는 A2C, DDPG, PPO, TD3 네 가지 대표적인 액터‑크리틱 프레임워크에 PIKAN을 삽입하고, 물리 손실을 포함한 복합 목표 함수를 정의한다. 실험에서는 5일 윈도우와 12개의 기술 지표(O H L C V, ADX, RSI 등)를 입력으로 사용해 상태 공간을 구성하고, 행동은 무위험 자산을 제외한 m개의 비중 벡터로 제한한다(합계 1, 비음수). 보상은 거래 비용을 반영한 로그 수익률이며, 물리 손실은 매 시점 관측된 수익률 변화와 행동에 의해 유도된 포트폴리오 가속도 사이의 차이로 계산된다.
세 시장에 대한 백테스트 결과는 일관되다. PIKAN‑강화학습 에이전트는 평균 연간 수익률 12 %18 %를 달성했으며, 샤프 비율은 1.82.3, 칼마 비율은 0.40.6으로 기존 DRL(샤프 1.21.5, 칼마 0.20.3) 및 전통 온라인 포트폴리오(샤프 0.91.1)보다 현저히 우수했다. 또한 최대 낙폭(Drawdown) 평균이 10 % 이하로 억제돼 위험 관리 측면에서도 강점을 보였다. 학습 곡선 분석에서는 PIKAN이 손실 진동을 크게 감소시켜 수렴 속도가 빠르고, 과적합 현상이 거의 관찰되지 않았다.
본 논문의 주요 기여는 (1) KAN을 활용한 파라미터 효율적·해석 가능한 함수 근사, (2) 금융 시계열에 물리‑인포메드 정규화를 도입해 행동의 시간적 일관성을 강제, (3) 다양한 DRL 알고리즘에 일반화 가능한 프레임워크 제공, (4) 신흥·선진 시장 모두에서 실증적으로 성능 향상을 입증한 점이다. 향후 연구에서는 물리 손실을 다중 물리 법칙(예: 보존 법칙)으로 확장하고, 변동성 모델링을 위한 확률 미분 방정식과의 결합을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기