배우‑비평가 강화학습으로 제어하는 블랙박스 온실 시스템
초록
본 논문은 복잡하고 비선형적인 블랙박스 온실 시뮬레이터를 제어하기 위해 배우‑비평가(Actor‑Critic) 정책‑그라디언트 강화학습을 적용하였다. 기존 PID와 Deep Q‑Network(DQN)와 비교했을 때, 제안된 방법은 환경을 200~350시간 지속시키는 데 성공했으며, 이는 PID와 DQN이 10시간 이하에 시스템을 붕괴시킨 것에 비해 20배 이상 향상된 결과이다.
상세 분석
이 연구는 제어 이론에서 전통적으로 요구되는 시스템의 명시적 모델링—미분방정식, 불리언 네트워크, 피드백 정점 등—을 회피하고, 관측 가능한 입출력만을 이용해 정책을 학습하는 완전한 블랙박스 접근법을 제시한다. 핵심은 배우‑비평가 구조를 채택한 점이다. 배우 네트워크는 4계층 완전 연결(Fully Connected) 구조(128‑128‑32‑액션수)로, ReLU 활성화와 최종 softmax를 사용해 확률적 행동 선택을 수행한다. 비평가 네트워크는 3계층 구조에 두 번째 계층에서 융합(fuse) 연산을 도입해, 관측값과 배우의 행동을 동시에 처리함으로써 Q‑값을 추정하고, TD‑오차 기반의 평균제곱오차(MSE) 손실을 최소화한다. 이러한 설계는 정책 그라디언트를 직접 제공받는 비평가와, 정책 자체를 최적화하는 배우가 상호 보완적으로 학습하도록 만든다.
학습 절차는 ε‑greedy 형태의 탐색 스케줄을 적용한다. 초기 ε=0.95에서 시작해 9에피소드당 10%씩 감소시켜, 초기 단계에서는 무작위 행동을 통해 충분한 탐색을 보장하고, 이후에는 학습된 정책에 집중한다. 경험 재플레이 버퍼에서 256개의 샘플을 미니배치로 추출해 업데이트함으로써 데이터 효율성을 높였다. 하드웨어는 NVIDIA GTX 1080 8 GB GPU와 TensorFlow 기반 파이썬 구현을 사용했으며, 실험은 2,000 에피소드 이상 수행되었다.
실험 환경은 8개의 제어 액션(팬 가동, 커튼 개방, 내부·외부 급수, 살충제 살포, 조명, 영양분 분사, 수확)과 7개의 관측 변수(내부 온도, 공기·토양 습도, 식물 높이, 살충제 농도, 인간·곤충 존재 여부)를 가진 인공 온실 시뮬레이터이다. 각 액션은 다중 변수에 동시에 영향을 미치며, 부작용(side‑effect)이 강해 전통적인 PID 제어가 비효율적이다. 보상은 매 시간 지속 가능한 상태에 대해 +1을 부여, 즉 총 보상은 시스템을 유지한 시간(시간 단위)과 동일하다.
비교 실험 결과, PID는 액션 간 간격을 조절했음에도 불구하고 시스템 파괴를 가속화했으며, DQN은 10시간 이하의 점수에 머물렀다. 반면 배우‑비평가는 200~350시간이라는 높은 점수를 기록했으며, 이는 실제 농업 현장에서 작물 성장·수확에 충분한 시간이다. 또한, 비평가‑전용 가치 기반 방법이 복잡한 비선형 관계를 포착하지 못한 반면, 정책‑그라디언트 기반 배우‑비평가가 행동 선택과 가치 추정 두 축을 동시에 최적화함으로써 블랙박스 시스템 제어에 적합함을 입증한다.
이 논문은 (1) 복잡하고 비선형적인 블랙박스 시스템에 대한 모델‑프리 제어 가능성, (2) 배우‑비평가 구조가 다중 변수 상호작용을 효율적으로 학습할 수 있음을, (3) 실제 스마트 팜 적용 시 에너지 효율과 운영 비용 절감 효과를 기대할 수 있음을 시사한다. 향후 연구에서는 실제 온실 데이터와 하드웨어 구현을 통한 검증, 그리고 다중 목표 최적화를 위한 보상 설계 확장이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기