LLM 기반 전력망 전환 최적화: PSPS 상황에서 경제적·안전한 스위칭
본 논문은 대규모 언어 모델(LLM)을 단계별로 미세조정하여, 공공 안전 전력 차단(PSPS) 상황에서 제한된 스위칭 예산 하에 전력망의 개방형 전송 스위칭 계획을 자동 생성한다. 감독 학습(SFT)으로 DC‑OPF MILP 오라클을 모방하고, 전압 품질을 고려한 직접 선호 최적화(DPO)로 AC‑기반 전압 페널티를 반영한다. 추론 시 Best‑of‑N 샘플링을 적용해 최적 후보를 선택한다. IEEE 118‑bus 테스트에서 제로샷 대비 DC …
저자: Mohamad Chehade, Hao Zhu
본 논문은 공공 안전 전력 차단(Public Safety Power Shutoffs, PSPS) 상황에서 전력망 운영자가 급격히 변하는 토폴로지에 대응해, 제한된 스위칭 예산 내에서 전송 라인을 개방(open‑only)하는 최적의 교정 스위칭 계획을 신속히 도출할 수 있도록 하는 LLM 기반 자동화 프레임워크를 제안한다. 연구는 크게 네 단계로 구성된다.
1. **문제 정의 및 DC‑OPF MILP 오라클**
PSPS에 의해 강제 개방된 라인 집합을 마스크 ξ로 표현하고, 추가로 Kℓ개의 라인을 더 열 수 있는 제약을 두어 DC‑OPF 기반 혼합정수선형계획(MILP) 문제를 수식화한다. 목표는 발전 비용과 부하 차단 비용을 최소화하면서 라인 흐름 제한과 예산 제약을 만족하는 라인 집합 T(ξ)를 찾는 것이다. 또한 코리더(전송 회랑) 구조를 도입해 코리더별 스위칭 제한 K_S를 추가함으로써 실제 운영 규칙을 반영한다.
2. **감독 학습(SFT) 단계**
- **오라클 데이터 생성**: 위 MILP를 모든 훈련 시나리오에 대해 풀어 최적 개방 라인 집합을 얻는다.
- **시나리오 요약**: 각 시나리오는 라인 가용성, 예산, 코리더 구성 등을 포함한 구조화된 텍스트(JSON) 형태로 압축한다.
- **행동 문법**: LLM이 출력해야 할 문자열은 “open(LINE)” 혹은 “open(Sk:LINE)” 형식으로 제한되며, 필요 시 “do_nothing”을 반환한다. 문자열은 사전식 정렬을 적용해 고유한 표준 형태를 만든다.
- **학습 목표**: 인스트럭션‑튜닝된 베이스 LLM(예: ft:gpt‑4.1‑mini) 위에 조건부 언어 모델링 손실을 최소화하는 방식으로 파라미터 ϕ를 업데이트한다. 학습은 3 epoch, 배치 1, 토큰 수 약 450k에 걸쳐 수행된다.
3. **전압 품질을 반영한 직접 선호 최적화(DPO)**
- **전압 페널티 정의**: AC 전력 흐름을 풀어 각 버스 전압 |V_i|를 구하고, 명시적 데드밴드(v_db) 외의 위반을 L_p( p=1) 합산해 스칼라 V_pen을 계산한다. 수렴하지 않을 경우 큰 V_fail 페널티를 부여한다.
- **선호 데이터 구축**: SFT 모델에서 N개의 후보를 샘플링하고, 문법·예산 검증 후 AC 전압 페널티를 평가한다. V_pen 차이가 Δ_pref 이상인 쌍을 (y⁺, y⁻) 형태로 저장한다. 총 440개의 선호 쌍을 확보하였다.
- **DPO 손실**: 로그 시그모이드 형태의 L_DPO(ϕ)=−∑log σ(β_DPO·(Δϕ−Δ_ref))를 최소화한다. 여기서 Δϕ는 현재 정책의 로그 확률 차, Δ_ref는 SFT 정책의 차이다. β_DPO=0.1로 설정해 선호 강도를 조절하였다. 학습은 2 epoch, 배치 8, 토큰 수 약 1.6M으로 진행되었다.
4. **추론 시 Best‑of‑N 샘플링**
- 시나리오 x에 대해 정책 π (SFT 또는 DPO)에서 N개의 후보 y^(j)를 독립적으로 샘플링한다.
- 각 후보는 (i) 문법 파싱, (ii) PSPS·예산 제약, (iii) DC 타당성, (iv) 선택적 AC 전압 평가 순으로 검증된다.
- 유효 후보 집합 Y_valid이 비어 있으면 “do_nothing”을 반환하고, 그렇지 않으면 스코어 = J_DC + λ·V_pen (λ≥0) 를 최소화하는 ŷ를 선택한다. N은 실시간 요구에 따라 5~20 정도로 설정 가능하며, 병렬 처리로 추론 지연을 최소화한다.
**실험 및 결과**
- **데이터**: IEEE 118‑bus 시스템(118버스, 186라인, 54발전기)에서 9개의 코리더를 정의하고, 200개의 PSPS 시나리오를 생성해 160개를 훈련, 40개를 테스트에 사용하였다.
- **비교 대상**: (i) 제로샷 베이스 LLM, (ii) SFT 모델, (iii) DPO 모델, (iv) 전통적인 MLP(1 hidden layer, 512 units).
- **DC 비용**: 제로샷 평균 J_DC≈2,500 $/h, SFT≈2,200 $, DPO≈2,190 $, MLP≈2,250 $. SFT와 DPO는 비용 감소가 통계적으로 유의미함을 보였다.
- **AC 전력 흐름 성공률**: 제로샷 50% 실패, SFT 8% 실패, DPO 6% 실패, MLP 12% 실패. 전압 품질(평균 V_pen)도 제로샷 0.15 → SFT 0.09 → DPO 0.07 로 개선되었다.
- **Best‑of‑N 효과**: N=10일 때 DPO의 최종 V_pen 평균이 0.05까지 낮아졌으며, 추가 연산 비용은 약 0.3 초/시나리오 수준에 머물렀다.
**기여 및 의의**
1. PSPS 상황을 고려한 개방형 스위칭 문제를 DC‑OPF MILP 오라클로 정형화하고, 이를 LLM 학습에 활용하는 파이프라인을 최초로 제시.
2. 전압 품질을 직접 선호 학습에 포함시켜, DC‑기반 모방만으로는 얻을 수 없는 AC 안전성을 확보.
3. 행동 문법과 시나리오 요약을 통해 LLM 출력이 자동 파싱·검증 가능하도록 설계, 실제 운영 시스템에 쉽게 통합 가능.
4. 공개된 코드와 데이터 생성 스크립트로 재현성을 보장하고, 다른 전력망 혹은 다른 제약(예: 재생에너지 비율)에도 확장 가능하도록 구조화.
전반적으로 본 연구는 “LLM + 전력망 최적화”라는 새로운 융합 접근법을 실증적으로 입증했으며, 급변하는 전력 시스템 운영에서 인간·AI 협업을 촉진할 실용적인 도구를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기