딥 강화학습을 통한 초임계 에어포일 항력 감소 설계
초록
본 논문은 초임계 에어포일의 항력을 최소화하기 위해, 벽면 마하수 분포를 입력 특징으로 하는 딥 강화학습(DRL) 정책을 개발한다. 초기 정책은 모방학습으로 사전학습하고, 대리모델 기반 환경에서 반복 학습함으로써 200개 에어포일에 평균적인 항력 감소를 달성하였다. 학습된 정책은 CFD 검증을 통해 훈련 조건뿐 아니라 유사한 흐름 조건에서도 재현 가능함을 확인하였다.
상세 분석
이 연구는 초임계 비행에서 핵심적인 설계 변수인 항력을 감소시키는 문제를 강화학습(RL)의 프레임워크로 재구성한 점이 가장 큰 혁신이다. 기존의 전통적 설계 방법은 경험적 데이터와 파라메트릭 최적화에 의존했지만, 본 논문은 ‘시행착오’를 통한 학습을 가능케 하는 딥 강화학습(DRL)을 적용해 설계 공간을 자동 탐색한다. 특히, 상태 표현을 ‘벽면 마하수 분포’라는 물리적으로 의미 있는 변수로 정의함으로써, 정책이 특정 형상에 국한되지 않고 다양한 에어포일에 일반화될 수 있는 기반을 마련했다. 이는 전통적인 CFD 기반 최적화가 고비용·고시간 소요인 반면, 대리모델(surrogate model)로 만든 빠른 시뮬레이션 환경에서 수천 번의 에피소드를 수행할 수 있게 해준다.
초기 정책을 무작위로 설정하는 대신, 모방학습(imitation learning)으로 기존 설계 전문가가 만든 베이스라인 정책을 사전학습시킨 점도 주목할 만하다. 이는 탐색 단계에서 비효율적인 행동을 크게 줄여 학습 효율성을 높였으며, 실험 결과 무작위 초기 정책 대비 수렴 속도와 최종 항력 감소율 모두 우수함을 보여준다. 정책은 ‘행동(action)’을 연속적인 형상 파라미터 변형으로 정의했으며, 보상 함수는 항력 감소량에 직접 연결돼 있어 목표 지향적 학습이 가능했다.
학습 후 정책을 실제 CFD(Computational Fluid Dynamics) 시뮬레이션으로 검증한 결과, 훈련 시 사용한 대리모델 환경과 거의 동일한 항력 감소 효과를 재현했으며, 흐름 마하수, 공격각, 레이놀즈 수가 변하는 유사 조건에서도 정책이 안정적으로 작동했다. 이는 정책이 ‘벽면 마하수 분포’를 입력으로 사용함으로써, 물리적 흐름 특성에 대한 내재적 이해를 어느 정도 학습했음을 의미한다.
하지만 몇 가지 한계도 존재한다. 첫째, 대리모델 자체가 고정된 설계 범위와 유동 조건에 최적화돼 있기 때문에, 완전히 새로운 형상이나 극한 마하수 영역에서는 정책의 성능이 저하될 가능성이 있다. 둘째, 현재 정책은 연속적인 형상 변형만을 다루며, 급격한 기하학적 변화를 포함하는 설계 공간을 탐색하기엔 제한적이다. 셋째, 보상 설계가 항력 감소에만 초점을 맞추었기 때문에, 양력·모멘트·구조적 강도 등 다중 목표를 동시에 고려하는 다목표 최적화에는 추가적인 보상 구조가 필요하다.
전반적으로, 이 논문은 초임계 에어포일 설계에 강화학습을 성공적으로 적용한 최초 사례 중 하나이며, 물리 기반 특징을 활용한 정책 설계, 모방학습을 통한 사전학습, 대리모델 기반 효율적 학습이라는 세 가지 핵심 요소가 서로 시너지를 이루어 실용적인 설계 도구로서의 가능성을 보여준다. 향후 연구에서는 다목표 보상, 보다 넓은 설계 공간, 실시간 CFD와의 하이브리드 학습 등을 통해 정책의 일반화와 적용 범위를 확대할 수 있을 것으로 기대된다.