강화학습으로 선택하는 최적 FWI 미스핏 함수

강화학습으로 선택하는 최적 FWI 미스핏 함수
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 전파 전파역학(FWI)에서 L2와 최적수송 매칭필터(OTMF) 두 가지 미스핏 함수를 언제 전환할지 자동으로 결정하기 위해 Deep‑Q‑Network(DQN) 기반 강화학습 에이전트를 설계한다. 1‑차원 시간 이동 신호 예제로 학습 과정을 검증하고, 학습된 정책이 시간 이동이 절반 주기 이하일 때는 L2, 그 이상일 때는 OTMF를 선택함을 보인다.

상세 분석

본 연구는 FWI의 비선형성 및 사이클 스키핑 문제를 해결하기 위한 “계층적” 전략을 데이터‑드리븐 방식으로 전환하려는 시도이다. 전통적으로 지질학자는 저주파·이미지 기반 미스핏을 사용해 큰 스케일을 잡은 뒤, 점차 L2‑norm으로 전환해 고해상도 정보를 추출한다. 이러한 전환 시점은 경험에 크게 의존하며, 데이터 양이 방대하고 물리 모델이 복잡할수록 최적 타이밍을 찾기 어려워진다.

논문은 이를 마코프 결정 과정(MDP)으로 모델링한다. 상태 sₜ는 현재 예측 파형 pₜ와 관측 파형 dₜ(단일 트레이스)이며, 행동 aₜ는 “L2 사용” 혹은 “OTMF 사용”이라는 이산 선택이다. 보상 rₜ는 모델 차이 혹은 데이터 잔차의 정규화된 L2‑norm의 부호 반전(즉, 잔차가 작을수록 보상이 크다)으로 정의해, 장기적으로 누적 잔차를 최소화하도록 설계하였다.

DQN은 Q‑함수 Q(s,a;θ)를 신경망으로 근사한다. 입력층은 파형 쌍(pₜ,dₜ)이며, 은닉층은 샘플 수 nt(=200)와 동일한 크기의 완전 연결 레이어를 사용한다. 출력은 두 행동에 대한 Q값이다. 경험 재플레이와 ε‑greedy 탐색을 적용해 학습 안정성을 확보했으며, 목표 네트워크 ˆQ를 주기적으로 동기화한다.

실험은 시간 이동 τ를 파라미터로 갖는 Ricker 파형을 이용해 수행되었다. τ∈


댓글 및 학술 토론

Loading comments...

의견 남기기