주거용 전기차 충전·V2G 최적화를 위한 LLM 기반 진화형 정책 생성
초록
본 논문은 대형 언어 모델(LLM)을 변이 연산자로 활용해 진화적 프로그램 탐색을 수행하고, EV2Gym 시뮬레이터를 피트니스 함수로 삼아 주거용 전기차 충전·V2G 제어 정책을 자동 생성한다. 네 가지 프롬프트 전략(모방, 추론, 하이브리드, 런타임)을 비교한 결과, 하이브리드 전략이 가장 간결하고 해석 가능한 파이썬 히어스틱을 도출했으며, 기준 정책 대비 118%의 수익을 달성했다. 생성된 정책은 가격 차익 거래, 히스테리시스, 배터리 안전 제약 등을 명시적으로 코드에 포함해 투명성을 확보한다.
상세 분석
이 연구는 “코드‑as‑policy” 패러다임을 EV 주거용 V2G 문제에 적용한 최초 사례 중 하나로, 기존 강화학습(RL) 기반 정책이 갖는 블랙박스 특성을 근본적으로 해소한다. 핵심 아이디어는 LLM을 진화적 변이 연산자로 사용해, 인간이 이해 가능한 파이썬 함수 형태의 정책을 반복적으로 생성·평가·수정하는 ‘프롬프트‑평가‑수정’ 루프를 구축하는 것이다. 논문은 6단계 파이프라인을 제시한다. 첫 단계에서는 5분 간격의 상태‑액션 예시(가격, SoC, PV, 부하, 출발시간 등)를 수집해 LLM에 제공한다. 두 번째 단계에서는 물리적 가드레일(SoC 최소·최대, 충전·방전 전력 한계)을 명시한 구조화된 프롬프트를 설계한다. 세 번째 단계에서 LLM은 decide_power(state) 형태의 함수 코드를 출력하고, 네 번째 단계에서 이를 EV2Gym‑Residential 환경에 삽입해 멀티‑데이 시뮬레이션을 수행한다. 다섯 번째 단계에서는 총 수익, SoC 위반 횟수, 배터리 손상 지표 등 정량적 피드백을 자동으로 요약하고, 여섯 번째 단계에서 이전 코드와 피드백을 프롬프트에 추가해 LLM에게 수정된 코드를 요구한다. 이 과정을 여러 세대에 걸쳐 반복함으로써 정책의 성능과 해석성을 동시에 향상시킨다.
프롬프트 전략 비교에서는 다음과 같은 차이가 관찰되었다. ‘모방’ 전략은 기존 휴리스틱 코드를 그대로 복제하는 데 그쳐 적응성이 낮았다. ‘추론’ 전략은 LLM에게 가격‑SoC‑시간 관계에 대한 논리적 추론을 요구했지만, 복잡한 다목적 최적화에서는 과도한 제약으로 인해 수렴이 느렸다. ‘런타임’ 전략은 매 시점마다 LLM에 질의해 행동을 결정했지만, 호출 비용과 지연이 실시간 적용에 부적합했다. 반면 ‘하이브리드’ 전략은 초기 예시와 목표 보상, 그리고 이전 세대의 오류 교정을 동시에 제공함으로써, LLM이 코드 수준에서 구조적 변이를 수행하도록 유도했다. 결과적으로 하이브리드 전략이 가장 짧고 직관적인 if‑else 로직을 생성했으며, 가격 차익 거래를 위한 ‘예측 임계값’과 배터리 보호를 위한 ‘히스테리시스 폭’ 등을 명시적으로 구현했다. 이러한 정책은 118%의 기준 수익을 달성했으며, SoC 위반이 0%에 가까워 안전성도 확보했다.
또한 논문은 LLM‑기반 진화가 전통적 유전 프로그래밍(GP)과 차별화되는 점을 강조한다. GP는 추상 구문 트리(AST)를 변이시키는 반면, 본 접근법은 고수준 파이썬 코드를 직접 다루어 인간이 바로 읽고 검증할 수 있는 형태를 유지한다. 이는 에너지 분야에서 규제 당국이 요구하는 ‘감사 가능성’과 ‘설명 가능성’에 부합한다. 더불어 LLM의 체인‑오브‑씽크(CoT) 능력을 활용해 복합 제약(가격, 배터리 수명, 사용자 편의)을 동시에 고려하는 복합 로직을 자동으로 도출한다는 점에서, 기존 수학적 최적화나 MILP 기반 접근법보다 유연하고 확장성이 높다.
마지막으로, 연구는 한계점도 명시한다. 현재 실험은 EV2Gym‑Residential이라는 시뮬레이터에 국한돼 실제 현장 데이터와의 차이가 존재한다. 또한 LLM의 출력이 문법 오류나 논리적 모순을 포함할 가능성이 있어, 자동 파싱·검증 모듈이 필수적이다. 향후 연구에서는 실시간 데이터 스트림과 연계한 온라인 진화, 다가구(멀티‑홈) 협력 제어, 그리고 LLM‑버전(예: GPT‑4o → GPT‑5) 업그레이드에 따른 성능 변화를 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기