Fine-Tuning LLMs to Generate Economical and Reliable Actions for the Power Grid
๐ Abstract
**
๊ณต๊ณต ์์ ์ ๋ ฅ ์ฐจ๋จ(PSPS) ์ฌ๊ฑด์ ๊ธ๊ฒฉํ ์์ ๋ณํ์ ์ ๋ ฅ ํ๋ฆ ๋ถ๊ฐ๋ฅ์ฑ์ ์ด๋ํด, ์ด์์๋ ์ ํ๋ ์๊ฐ ์์ ๋ถํ ์ฐจ๋จ์ ์ต์ํํ๊ณ ์ ์ ํ์ง์ ์ ์งํ ์ ์๋ ๋ณด์ ์ ์ก ์ค์์นญ(์คํ ์ ์ฉ) ์กฐ์น๋ฅผ ์ฐพ์์ผ ํ๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ค๋จ๊ณ ์ ์ ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค. โ โฏDCโOPF MILP ์ต์ ํ ์ค๋ผํด์ ์ด์ฉํด ์ ์ฝ๋ ํ๋ ๋ฌธ๋ฒ์ผ๋ก ๊ฐ๋
ํ์ต(SFT)ํ์ฌ LLM์ด ์ ๋ขฐ์ฑ ์๊ฒ ํ์ฑยท๊ฒ์ฆ ๊ฐ๋ฅํ ์ค์์นญ ํ๋์ ์์ฑํ๋๋ก ํ๋ค. โกโฏ์ ์ ํ์ง์ ๊ณ ๋ คํ ์ง์ ์ ํธ ์ต์ ํ(DPO) ๋ก ACโํ๊ฐ ๊ธฐ๋ฐ ์ ํธ ์์ ์ฌ์ฉํด ์ ์ฑ
์ ์ ์โ์ธ์์ผ๋ก ์ ์ ํ๋ค. โขโฏ์ถ๋ก ๋จ๊ณ์์ BestโofโN ์ํ๋ง์ ํตํด ๋ชฉํ ๋ฉํธ๋ฆญ(๊ฒฝ์ ์ฑยท์ ์ ํจ๋ํฐ) ๊ธฐ์ค์ผ๋ก ์ต์ ํ๋ณด๋ฅผ ์ ํํ๋ค. IEEE 118โbus ํ
์คํธ ์์คํ
์ PSPS ์๋๋ฆฌ์ค์์, ์ ์๋ ํ์ดํ๋ผ์ธ์ ์ ๋กโ์ท ๋๋น DC ๋ชฉํ๊ฐ์ ํฌ๊ฒ ํฅ์์ํค๊ณ , AC ์ ๋ ฅ ํ๋ฆ ์คํจ์จ์ 50โฏ% โ ์ญ์ ์๋ฆฌ ์ดํ๋ก ๊ฐ์์ํค๋ฉฐ, ์ ์ ํจ๋ํฐ์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ฝ๋์ ๋ฐ์ดํฐ ์์ฑ ์คํฌ๋ฆฝํธ๋ ์ฌํ์ฑ์ ์ํด ๊ณต๊ฐํ๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ์์ฑ
- PSPS๋ ํ์ฌ ์ํ์ ์ค์ด๊ธฐ ์ํด ์ ๋ ฅ์ ์ ๊ฐ์ ๋ก ์ฐจ๋จํ๋ ๋น์ ์กฐ์น์ด๋ฉฐ, ์ด๋ก ์ธํด ์ ๋ ฅ๋ง ํ ํด๋ก์ง๊ฐ ๊ธ๋ณํ๋ค. ๊ธฐ์กด ์ต์ ํ(DCโOPF MILP, ACโOPF) ๋ฐฉ์์ ์๊ฐ ์ ์ฝ์ด ํฐ ํ์ฅ ์ํฉ์์ ์ค์๊ฐ ์ ์ฉ์ด ์ด๋ ค์, ์ ์ํ ์์ฌ๊ฒฐ์ ์ง์์ด ์ ์คํ๋ค.
- LLM์ ์์ฐ์ด ์ ๋ ฅ โ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ ๋ณํ์ ๊ฐ์ ์ด ์์ด, ์ด์์์์ ์ธํฐํ์ด์ค๋ฅผ ์์ฐ์ด ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ๋ฉด์๋ ๊ธฐ๊ณ๊ฐ ๊ฒ์ฆ ๊ฐ๋ฅํ ํ์(๋ฌธ๋ฒ)์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ ์ ์๋ค.
2. ํต์ฌ ๊ธฐ๋ฒ
| ๋จ๊ณ | ๋ชฉ์ | ๊ตฌํ ์์ธ |
|---|---|---|
| SFT (Supervised FineโTuning) | DCโOPF MILP ์ค๋ผํด์ ๋ชจ๋ฐฉ, ๊ธฐ๋ณธ ๊ฒฝ์ ์ฑ ํ๋ณด | - ์๋๋ฆฌ์ค ์์ฝ(JSON) + ์์คํ
ํ๋กฌํํธ โ ํ๋ ๋ฌธ์์ด(๋ฌธ๋ฒ) - ๊ต์ฐจ ์ํธ๋กํผ ์์ค ์ต์ํ, 3 epoch, 453โฏk ํ ํฐ |
| DPO (Direct Preference Optimization) | ์ ์ ํ์ง(AC) ๋ฐ์, DCโ๋ชจ๋ธ์ ํ๊ณ ๋ณด์ | - ํ๋ณด ํ๋์ ACโPF๋ก ํ๊ฐ, ์ ์ ํจ๋ํฐ ์ ์ - ์ ํธ ์(yโบ, yโป) ์์ฑ โ DPO ์์ค ์ต์ํ (ฮฒ=0.1) - ๊ธฐ์กด SFT ์ ์ฑ ์ ๋ ํผ๋ฐ์ค๋ก ์ฌ์ฉํด ๊ณผ๋ํ ๋ณํ ๋ฐฉ์ง |
| BestโofโN | ์ํ๋ง ๋ค์์ฑ ํ์ฉ, ์ถ๋ก ์ ํ์ง ํฅ์ | - N(=5~10) ํ๋ณด ์์ฑ โ ๋ฌธ๋ฒยท์์ฐยทDCยท(์ ํ์ ) AC ๊ฒ์ฆ - ๋ชฉํ ์ค์ฝ์ด(๊ฒฝ์ ์ฑ+์ ์ ํจ๋ํฐ) ์ต์ ํ๋ณด ์ ํ |
- ํ๋ ๋ฌธ๋ฒ: โOPEN line_12; OPEN line_45; โฆโ ํํ๋ก ์ค๊ณ๋ผ ํ์ฑ์ด ๊ฐ๋จํ๊ณ , ์ ์ฝ ๊ฒ์ฆ(์์ฐ, PSPSโ๊ฐ๋ฅ ๋ผ์ธ) ๋จ๊ณ์์ ์๋ ๊ฑฐ๋ถ๊ฐ ๊ฐ๋ฅํ๋๋ก ํจ.
- ์ ์ ํจ๋ํฐ: ์ ์ ํธ์ฐจ๋ฅผ ์ ๋๊ฐ ํฉ(โโ) ํน์ ์ ๊ณฑํฉ(โโ)์ผ๋ก ์ ๋ํํ๊ณ , ACโPF ์๋ ด ์คํจ ์ ํฐ ์์ ํจ๋ํฐ ๋ถ์ฌํด ๋ชจ๋ธ์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ํ๋์ ํํผํ๋๋ก ์ ๋.
3. ์คํ ์ค๊ณ ๋ฐ ๊ฒฐ๊ณผ
| ๋น๊ต ๋์ | ACโPF ์คํจ์จ | ํ๊ท DC ๋น์ฉ ๊ฐ์ | ์ ์ ํจ๋ํฐ(์ค์๊ฐ) |
|---|---|---|---|
| Zeroโshot LLM | โโฏ50โฏ% | โ | ๋์ |
| SFT | <โฏ10โฏ% | 12โฏ% ๊ฐ์ | ์ค๊ฐ |
| DPO | <โฏ5โฏ% | 10โฏ% ๊ฐ์ (SFT ๋๋น ์ํญ) | ์ต์ |
| NN (MLP) | <โฏ5โฏ% | 8โฏ% ๊ฐ์ | ์ค๊ฐ |
- ํ์ต ๊ณก์ : SFT ๋จ๊ณ์์ ์์ค ๊ธ๊ฐ โ ํ ํฐ ์ ํ๋ 95โฏ% ์ด์ ๋๋ฌ, DPO ๋จ๊ณ์์๋ ์ ํธ ์ค๋ฅ์จ์ด ๊พธ์คํ ๊ฐ์, ์๋ ด ์์ ์ฑ ํ์ธ.
- BestโofโN ์ ์ฉ ์, N=7 ์ ๋์์ ์ฑ๋ฅ ํฅ์์ด ํฌํ, ์ถ๋ก ์๊ฐ์ 0.8โฏs/์๋๋ฆฌ์ค(๋ณ๋ ฌ GPU) ์์ค์ผ๋ก ์ค์๊ฐ ์ ์ฉ ๊ฐ๋ฅ.
4. ๊ฐ์
- ๊ฒฝ์ ์ฑ + ๋ฌผ๋ฆฌ์ ๊ฒ์ฆ: DCโ์ค๋ผํด์ ํ์ตํ๋ฉด์๋ ACโ์ ์์ ์ ํธ ๊ธฐ๋ฐ์ผ๋ก ์ ์ ํด ์ค์ ์ ๋ ฅ๋ง ์ด์์ ํ์ํ ๋ ์ถ์ ๋์์ ๋ง์กฑ.
- ๊ตฌ์กฐํ๋ ์ถ๋ ฅ: ์ ํ๋ ๋ฌธ๋ฒ์ ํตํด LLM์ด โ๋ธ๋๋ฐ์คโ๊ฐ ์๋๋ผ ๊ฒ์ฆ ๊ฐ๋ฅํ ํ๋ณด ์์ฑ๊ธฐ ์ญํ ์ ์ํ.
- ์ฌํ์ฑ: ๋ฐ์ดํฐยท์ฝ๋ ๊ณต๊ฐ, ํ์ดํ๋ผ์ธ์ด ๋ชจ๋ธโAPI ๋ ๋ฆฝ์ ์ด๋ผ ๋ค์ํ LLM์ ์ ์ฉ ๊ฐ๋ฅ.
- ์ค์ผ์ผ๋ฌ๋ธ: MILP ์ค๋ผํด์ ์คํ๋ผ์ธ์์๋ง ํ์ํ๊ณ , ์ถ๋ก ์์๋ LLM๋ง ์ฌ์ฉํด ์ค์๊ฐ ์์ฌ๊ฒฐ์ ์ง์ ๊ฐ๋ฅ.
5. ํ๊ณ ๋ฐ ๊ฐ์ ์
| ํ๊ณ | ์์ธ ๋ด์ฉ | ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ |
|---|---|---|
| ์ ์ ํจ๋ํฐ ์์ ๊ผฌ๋ฆฌ | ์ผ๋ถ ์๋๋ฆฌ์ค์์ ์ฌ์ ํ ๋์ ์ ์ ์๋ฐ ๋ฐ์ | ๋ ํ๋ถํ ์ ํธ ๋ฐ์ดํฐ(๋ค์ค ๋ชฉํ, ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ) ํ๋ณด |
| ์คํ๋ผ์ธ ์ ํธ ๋ผ๋ฒจ๋ง ๋น์ฉ | ACโPF ํ๊ฐ๊ฐ ํ์ํด ๋ผ๋ฒจ๋ง์ CPUยท์๊ฐ ์์ | ๋ผ๋ฒจ๋ง ์๋ํ(๋ฉํโํ์ต, ์๋ฎฌ๋ ์ด์ ๊ฐ์) ๋๋ RLโ๊ธฐ๋ฐ ์จ๋ผ์ธ ํผ๋๋ฐฑ ํ์ |
| ๋ฌธ๋ฒ ์ ํ | โOPEN onlyโ์ ๊ตญํ, ์ค์ ์ด์์์๋ โCLOSE + RECONFIGUREโ ํ์ | ๋ฌธ๋ฒ์ ํ์ฅํด ๋ณตํฉ ์ค์์นญยท์ฌ๊ตฌ์ฑ ์ก์ ํฌํจ, ์ ์ฝ์ ์๋ ๊ฒ์ฆ ๋ชจ๋ ๊ฐํ |
| ์ค์์นญ ์์ฐ ๊ณ ์ | Kโ, Kโ๊ฐ ๊ณ ์ ๋ผ ์ํฉ๋ณ ์ ์ฐ์ฑ ๋ถ์กฑ | ์์ฐ์ ์๋๋ฆฌ์ค ๋ณ์๋ก ํฌํจํด ์กฐ๊ฑด๋ถ ์ ์ฑ ํ์ต |
| ๋ชจ๋ธ ์ผ๋ฐํ | IEEEโ118 ๋ฒ์ค์๋ง ๊ฒ์ฆ, ๋๊ท๋ชจ ์์คํ (300โbus ์ด์)์์ ์ฑ๋ฅ ๋ฏธํ์ธ | ๋๊ท๋ชจ ํ ์คํธ๋ฒ ๋(IEEEโ300, ์ค์ ์ ํธ๋ฆฌํฐ ๋ฐ์ดํฐ)๋ก ํ์ฅ ์คํ |
6. ์ค์ฉ์ ์ ์ฉ ๊ณ ๋ ค์ฌํญ
- ์์ ๊ฒ์ฆ ํ์ดํ๋ผ์ธ: LLM ์ถ๋ ฅ โ ๋ฌธ๋ฒ ํ์ฑ โ DCโFeasibility โ (์ ํ์ ) ACโPF โ ์ต์ข ์น์ธ.
- ์ถ๋ก ๋น์ฉ: BestโofโN์ N์ ๋น๋กํด GPU ๋ฉ๋ชจ๋ฆฌยท์๊ฐ ์ฆ๊ฐ, ์ด์์๋ ์๊ฐโ์์ฐ ํธ๋ ์ด๋์คํ๋ฅผ ์ฌ์ ์ ์ํด์ผ ํจ.
- ๋ฐฐํฌ ์ต์ : API ๊ธฐ๋ฐ(์: OpenAI) vs. ๋ก์ปฌ ํธ์คํ (์คํ์์ค LLM) ์ ํ ์, ๋ณด์ยท๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ๊ฒฐ์ .
7. ๊ฒฐ๋ก
๋ณธ ๋ ผ๋ฌธ์ LLM์ ์ ๋ ฅ๋ง ์ด์์ ์ง์ ์ ์ฉํ๋ ์ต์ด ์ฌ๋ก ์ค ํ๋๋ก, ๊ฐ๋ ํ์ต๊ณผ ์ ํธ ๊ธฐ๋ฐ ์ ์ ๋ฅผ ๊ฒฐํฉํด ๊ฒฝ์ ์ฑ๊ณผ ์ ์ ์์ ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค. ์ ์๋ ๋ค๋จ๊ณ ํ์ดํ๋ผ์ธ์ ์ ๋ ฅ ์์คํ ์ธ์๋ ๊ธด๊ธ ์ํฉ ๋์, ์ธํ๋ผ ์ฌ๊ตฌ์ฑ ๋ฑ ์ ์ฝ์ด ๊ฐํ ๋๋ฉ์ธ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ๋ค๋ชฉํ ์ต์ ํ, ๋ณตํฉ ์ค์์นญ, ๋๊ท๋ชจ ์์คํ ์ ์ฉ์ ํตํด ์ค๋ฌด ์ ์ฉ์ฑ์ ๋์ฑ ๊ฐํํ ์ ์์ ๊ฒ์ด๋ค.
**
๐ Full Content
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ ๋ ฅ ์์คํ ์ ์ด์ค ์ ์ฉ์ ๊ดํ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฐ๊ตฌ ํ๋กํ ํ์ ๋จ๊ณ์์ ๋ค์ํ ๋ถ์ผ์ ์ ์ฉ ๊ฐ๋ฅํ ์์ฌ๊ฒฐ์ ์ง์ ๋๊ตฌ๋ก ๊ธ์ํ ์ ํ๋์์ต๋๋ค[1]โ[3]. ๋น์ ํ ํ ์คํธ๋ฅผ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ์ผ๋ก ๋ณํํ๋ ๋ฅ๋ ฅ์ ์์ฌ๊ฒฐ์ ์ด ์๊ฐ์ ๋ฏผ๊ฐํ๊ณ ๊ฒฐ๊ณผ๊ฐ ์ค๋ํ ์ด์ ํ๊ฒฝ์์ ํฐ ๋งค๋ ฅ์ ๊ฐ์ง๋๋ค. ์ ๋ ฅ ์์คํ ์ ์ด์ค์ ์ด๋ฌํ ํ๊ฒฝ์ ์ ํ์ ์ธ ์ฌ๋ก์ ๋๋ค. ์ด์์๋ ๋ณต์กํ ๋น์ ์ํฉ์ ๊ด๋ฆฌํ๊ณ , ๋ค์์ ์ค๋น์ ๊ฑธ์ณ ์กฐ์น๋ฅผ ์กฐ์ ํ๋ฉฐ, ์ ๋ขฐ์ฑยท๊ฒฝ์ ์ฑยท๊ท์ ์ค์๋ฅผ ๋์์ ๋ง์กฑ์์ผ์ผ ํฉ๋๋ค[4]. ์ ํต์ ์ธ ์์ฌ๊ฒฐ์ ์ง์ ๋๊ตฌ๊ฐ ํน์ํ ์ ๋ ฅ ํ์์ด๋ ๊ฒฝ์ง๋ ์ธํฐํ์ด์ค๋ฅผ ์๊ตฌํ๋ ๋ฐ๋ฉด, LLM์ ์์ฐ์ด๋ฅผ ํตํ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ๊ธฐ๊ณ๊ฐ ์ฝ์ ์ ์๋ ๊ถ๊ณ ์(์: ๊ตฌ์กฐํ๋ ๋์ ๋ฆฌ์คํธ)์ ์์ฑํ์ฌ ์คํ ์ ๊ฒ์ฆ์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค[5],[6].
ํ์ง๋ง ๊ธฐ๋ณธ LLM์ ์ ๋ ฅ ์์คํ ๋ฌผ๋ฆฌ, ์ด์ ์ ์ฝ, ๊ทธ๋ฆฌ๋ ์์ ์๊ตฌ์ฌํญ์ ๋ํ ๋๋ฉ์ธโํนํ ์ง์์ด ๋ถ์กฑํฉ๋๋ค. ์ ๋ ฅ ์์คํ ์ ์ฉ LLM์ ์ฒ์๋ถํฐ ํ์ตํ๋ ๊ฒ์ ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํฉ๋๋ค. ์ต์ LLM์ ์์กฐ ๊ฐ์ ํ ํฐ์ ๋ค์ํ ๋๋ฉ์ธ์ ๊ฑธ์ณ ์ฌ์ ํ์ตํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํ๋ณดํ๊ณ [7], ์ ๋ ฅ ์ด์ ๋ฐ์ดํฐ๋ ๊ท๋ชจ๊ฐ ํจ์ฌ ์๊ณ ํน์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ค์ฉ์ ์ธ ๋์์ ๊ฐ๋ ฅํ instructionโtuned ๋ชจ๋ธ์ ๋ชฉํ ์์ ์ ๋ง๊ฒ ๋ชฉํ ๋ฏธ์ธ์กฐ์ (targeted fineโtuning) ํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ (i) ๊ทธ๋ฆฌ๋ ์๋๋ฆฌ์ค์ ๋ํ ๊ฐ๊ฒฐํ๊ณ ๊ตฌ์กฐํ๋ ์ค๋ช ์ ์ฝ๊ณ , (ii) ๊ฒ์ฆ ๊ฐ๋ฅํ ์ ํ๋ ๋ฌธ๋ฒ์ผ๋ก ๋์์ ์ถ๋ ฅํ๋๋ก ํ์ต์ํฌ ์ ์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๊ตฌ์ฒด์ ์ด๊ณ ์ด์์ ์ผ๋ก ๋๊ธฐ๋ถ์ฌ๋ ๊ณผ์ ์ธ ๊ณต๊ณต ์์ ์ ๋ ฅ ์ฐจ๋จ(PSPS) ์ํฉ์์์ ๊ต์ ์ฉ ๊ฐ๋ฐฉ ์ ํ(openโonly transmission switching) ์ ๋ค๋ฃน๋๋ค. PSPS๋ ๊ทนํ ๊ธฐ์ ์กฐ๊ฑด์์ ์ฐ๋ถ ๋ฐ์ ์ํ์ ๋ฎ์ถ๊ธฐ ์ํด ์ ํธ๋ฆฌํฐ๊ฐ ์ ๋ ฅ์ ์ฐจ๋จํ๋ ๊ต์ ์กฐ์น์ ๋๋ค[8]. PSPS๋ก ์ธํด ์ผ๋ถ ์ก์ ์ ์ด ์ฐจ๋จ๋๋ฉด, ์ด์์๋ ์ถ๊ฐ์ ์ธ ๊ฐ๋ฐฉ ๋์์ ํตํด ๊ณผ๋ถํ๋ฅผ ์ํํ๊ณ ๋ถํ ์ฐจ๋จ์ ๊ฐ์์ํค๋ฉฐ, ์ ํ ์์ฐ๊ณผ ์ด์ ๊ท์น์ ์ค์ํ๋ฉด์ ์์คํ ์ํ๋ฅผ ๊ฐ์ ํด์ผ ํฉ๋๋ค. ๋น์ ํ AC ์ ์ฝ์ ํฌํจํ ํผํฉ์ ์ ์ต์ ํ(MILP) ๊ธฐ๋ฐ ์ต์ ํด๋ฅผ ์ค์๊ฐ์ผ๋ก ๊ตฌํ๋ ๊ฒ์ ์๊ฐ ์๋ฐ ํ์์ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค[9]โ[11]. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์คํ๋ผ์ธ ์ต์ ํ ๋น์ฉ์ ๋ฏธ์ธ์กฐ์ ๋จ๊ณ์ ์ ๊ฐ(amortize) ํ๊ณ , ์ถ๋ก ์์๋ ๊ตฌ์กฐํ๋ ์๋๋ฆฌ์ค ์์ฝ๊ณผ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋์ ๋ฌธ๋ฒ์ ์ด์ฉํด ๊ณ ํ์ง ์ ํ ๊ถ๊ณ ์์ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
1. ์ ์ฒด ํ์ดํ๋ผ์ธ
Figureโฏ1์ ์ฐ๋ฆฌ๊ฐ ์ฑํํ ํ์ดํ๋ผ์ธ์ ๋ณด์ฌ์ค๋๋ค.
- Instructionโtuned ๋ฒ ์ด์ค ๋ชจ๋ธ โ 2) Supervised FineโTuning (SFT) : DC ์ ์ฝ ํ์์ MILPโderived ๊ฐ๋ฐฉ ์ ํ ๊ฒฐ์ ์ ๋ชจ๋ฐฉํ๋๋ก ํ์ต.
- Direct Preference Optimization (DPO) : AC ์ ์ ํ์ง ํ๊ฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์๊ฐ ๋งค๊ฒจ์ง ์๋ต์ ์ฌ์ฉํด ์ ์ ์๋ฐ์ ์ต์ํํ๋๋ก ์ ์ฑ ์ ์ ์ .
์ด ์ค๊ณ๋ โ๋ชจ๋ฐฉ ํ์ต โ ์ ํธ ๊ธฐ๋ฐ ์ ์ โ ๋ผ๋ ํ์ค ์ ๋ ฌ ํจํด์ ๋ฐ๋ฆ ๋๋ค[12],[13]. ๊ฐ๋ ๋จ๊ณ๋ ์ ์ฑ ์ ์ต์ ํ ์ค๋ผํด์ ๊ณ ์ ์ํค๊ณ , ์ ํธ ๋จ๊ณ๋ DC ํ์ต๋ง์ผ๋ก๋ ์ ๋ฌํ๊ธฐ ์ด๋ ค์ด AC ์ ์ ์ธ์์ ์ฃผ์ ํฉ๋๋ค. ์ต์ข ๋ชจ๋ธ์ ํ๋ณด ๊ณํ ์์ฑ๊ธฐ ๋ก์, ์ถ๋ ฅ์ ๊ธฐ์กด ์ ๋ ฅ๋ง ๋ถ์ ๋๊ตฌ๋ก ํ์ฑยท๊ฒ์ฆยทํ๊ฐ๋ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ์ ์ฃผ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- PSPSโaware ๊ฐ๋ฐฉ ์ ํ ๋ฌธ์ ์ ์ : ์ ํ ์์ฐยท์ฝ๋ฆฌ๋(์ ์ก ํ๋) ๊ตฌ์กฐ๋ฅผ ํฌํจํ DCโOPF MILP ์ค๋ผํด์ ์ค๊ณ(SectionโฏII).
- ๊ตฌ์กฐํ๋ ์๋๋ฆฌ์ค ํํ ๋ฐ ๋์ ๋ฌธ๋ฒ : LLM์ด ํ์ฑยท๊ฒ์ฆ์ด ์ฌ์ด ์ ํ ๊ณํ์ ์ถ๋ ฅํ๋๋ก ์ค๊ณ(SectionโฏIII).
- ์ ์ ์ธ์ ์ ํธ ์ ์ (DPO) : ACโderived ์ ์ ํ์ง ์ ํธ๋ฅผ ์ด์ฉํด DC ๋ชจ๋ฐฉ์ ๋์ด ๋ชจ๋ธ์ ์ ๋ ฌ(SectionโฏIIIโA).
- ๊ฒฝ์ ์ฑ, AC ํ๋น์ฑ, ์ ์ ํ์ง ํ๊ฐ : ์ ๊ฒฝ๋ง ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น๊ตํ๊ณ ์ฌํ์ฑ์ ์ํ ํ์ต ๊ณก์ ๋ ์ ๊ณต(SectionโฏIV).
- ์ค์ ์ ์ฉ ์ ๊ณ ๋ ค์ฌํญ : ํ๋น์ฑ ๊ฒ์ฌ, ํ์ตยท์ถ๋ก ๋น์ฉ, ๋ฐฐํฌ ์ ์ฝ ๋ฑ์ ๋ ผ์(SectionโฏIV).
์ฐ๋ฆฌ๋ ์ด ์์ ์ ๊ฒ์ฆ ๊ฐ๋ฅํ, ์ด์์โ๋๋ฉด LLM ์ด์์คํดํธ ๊ฐ ๊ธฐ์กด ์ ๋ ฅ๋ง ๋ถ์ ํ์ดํ๋ผ์ธ๊ณผ ์ธํฐํ์ด์คํ๋๋ก ํ๋ ์ฒซ ๋จ๊ณ๋ก ๋ณด๊ณ ์์ต๋๋ค.
2. PSPSโ๊ธฐ๋ฐ ๊ฐ๋ฐฉ ์ ํ ๋ฌธ์ ์ ์
๊ณต๊ณต ์์ ์ ๋ ฅ ์ฐจ๋จ(PSPS)์ ๊ทนํ ๊ธฐ์ ์กฐ๊ฑด์์ ์ฐ๋ถ ์ํ์ ๋ฎ์ถ๊ธฐ ์ํด ์ ํธ๋ฆฌํฐ๊ฐ ์ํํ๋ ์๋ฐฉยท๊ต์ ์ฐจ๋จ ์กฐ์น์ ๋๋ค[14],[15]. PSPS ์ด๋ฒคํธ๊ฐ ํน์ ์ก์ ์ ์ ์ฐจ๋จํ๋ฉด, ์์คํ ์ด์์๋ ์ถ๊ฐ์ ์ธ ๊ฐ๋ฐฉ ์ ํ(openโonly switching) ์ด ์ ๋ขฐ์ฑ์ ํฅ์์ํค๊ณ ๋ถํ ์ฐจ๋จ์ ๊ฐ์์ํฌ ์ ์๋์ง๋ฅผ ํ๋จํด์ผ ํฉ๋๋ค.
2.1 DCโOPF MILP ๋ชจ๋ธ
์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ DCโOPF ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.
[ \begin{aligned} \min; & J_{\text{DC}}(x,y) \ \text{s.t.};& \text{(1a)โ(1f)} \ & \text{(1g) PSPS์ ์ํด ๊ฐ์ ์ฐจ๋จ๋ ๋ผ์ธ์ ๋ฐ๋์ ์ด๋ ค ์์ด์ผ ํจ} \ & \text{(1h) ์ด์์๊ฐ ์ถ๊ฐ๋ก ์ด ์ ์๋ ๋ผ์ธ์ ์ต๋ } $K_\$ell \text{๊ฐ} \end{aligned} ]
(1g)ยท(1h)๋ ๊ธฐ์กด Optimal Transmission Switching(OTS)[9],[10]๊ณผ ๊ตฌ์กฐ์ ์ผ๋ก ์ ์ฌํ์ง๋ง ๊ฐ๋ฐฉ ์ ์ฉ ๋์์๋ง ์ ํ๋ฉ๋๋ค.
2.2 ์ฝ๋ฆฌ๋(์ ์ก ํ๋) ์ ์ฝ
์ฝ๋ฆฌ๋โ์ ํ ๊ฐ๋ฐฉ ์ ํ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
- ์ด์ง ๋ณ์ (y_S \in {0,1}) : ํ๋ (S) ๊ฐ ์ ํ์ ์ฌ์ฉ๋๋์ง ์ฌ๋ถ.
- (2a) (y_S = 0)์ด๋ฉด ํ๋ (S) ๋ด์์ ์ด์์ ๊ฐ๋ฐฉ์ด ๊ธ์ง๋ฉ๋๋ค.
- (2b) ํ์ฑํ๋ ํ๋ ์๋ ์ต๋ (K_S) ๋ก ์ ํ๋ฉ๋๋ค.
2.3 ํ์ดํ๋ผ์ธ ๋ด ์ญํ
์ DCโOPF MILP๋ ์คํ๋ผ์ธ ์ค๋ผํด ๋ก์, ๊ฐ๋ ๋ฏธ์ธ์กฐ์ (SFT)์ฉ ๋ผ๋ฒจ๋ง๋ ์ ํ ๊ณํ์ ์์ฑํฉ๋๋ค. ์ ์ ํ์งยทAC ํ๋น์ฑ ํ๊ฐ๋ ์คํ ์น์ ์์ ๋ณ๋๋ก AC ์ ๋ ฅ ํ๋ฆ์ ์ด์ฉํด ์ํ๋๋ฉฐ, ์ด๋ฅผ ํตํด DC ๊ตฌ์กฐ ๊ธฐ๋ฐ ํ์ต์ด ์ ์โ์ค์ฌ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ํ๊ฐํฉ๋๋ค.
3. ๊ฐ๋ ๋ฏธ์ธ์กฐ์ (SFT) ์ค๊ณ
MILP๋ฅผ ๋งค PSPS ์๋๋ฆฌ์ค๋ง๋ค ํ๋ฉด ๊ณ์ฐ ๋น์ฉ์ด ํฌ๊ฒ ์ฆ๊ฐํฉ๋๋ค. ์ด๋ OTS ๋ถ์ผ์์๋ ์ ์๋ ค์ง ํ์ฅ์ฑ ๋ฌธ์ ์ด๋ฉฐ, ํ์ต ๋ณด์กฐ ํน์ ํ๋ก์ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ์ ์๋ ๋ฐฐ๊ฒฝ์ด๊ธฐ๋ ํฉ๋๋ค[17],[18]. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ LLM์ ์ค๋ผํด์ ๋ชจ๋ฐฉํ๋๋ก ํ์ต ํจ์ผ๋ก์จ ์คํ๋ผ์ธ MILP ํด๊ฒฐ ๋น์ฉ์ ํ ๋ฒ์ SFT ๋จ๊ณ์ ์ ๊ฐํฉ๋๋ค.
3.1 ์ค์ ์ค๋ผํด
์ฃผ์ด์ง PSPS ๋ง์คํฌ (\xi)์ ์์ฐ ($K_\$ell)์ ๋ํด DCโOPF MILP(1)์ ํ์ด ์ต์ ์ด์์ ๊ฐ๋ฐฉ (\mathcal{Y}^\star) ๋ฅผ ์ป์ต๋๋ค. ์ฝ๋ฆฌ๋ ์ ์ฝ์ด ์๋ ๊ฒฝ์ฐ์๋ (2)๋ฅผ ํฌํจํ ๋ณํ์ ํ๋๋ค.
3.2 ์๋๋ฆฌ์ค ํํ
๊ฐ ํ์ต ์ํ์ ๋ค์ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค.
- ์๋๋ฆฌ์ค ์ฐจ์(๋ฒ์คยท๋ผ์ธยท๋ฐ์ ๊ธฐ ์)
- PSPSโ๊ฐ์ ๊ฐ๋ฐฉ ๋ผ์ธ ์
- ์ฝ๋ฆฌ๋๋ณ ์์ธ: ๋ผ์ธ ๋ชฉ๋ก, ๊ฐ์ /๊ฐ๋ฅ ์ํ, ํด๋น ์์ฐ ($K_\$ell, K_S)
์ด๋ฌํ ๊ตฌ์กฐํ๋ ํ ์คํธ ์์ฝ์ ์์น ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ํํ๋ฉด์๋ ํ ํด๋ก์ง ์ ๋ณด๋ฅผ ๋ณด์กดํฉ๋๋ค.
3.3 ๋ฐ์ดํฐ ํฌ๋งท
ํ์ต ์์ ์ฑํ ํ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- system ํ๋กฌํํธ: ์์ ์ ์์ ๋์ ๋ฌธ๋ฒ ์ ์.
- user ๋ฉ์์ง: ์๋๋ฆฌ์ค JSON.
- assistant ๋ฉ์์ง: ์ ๋ต ๋์ ๋ฌธ์์ด.
์ด๋ ์ผ๋ฐ์ ์ธ instructionโtuning ๊ดํ์ ๋ฐ๋ฆ ๋๋ค[12].
3.4 ๋ฏธ์ธ์กฐ์ ๋ชฉํ
๋ฒ ์ด์ค LLM์ ์ด๊ธฐํํ ๋ค, ๋ค์ ์์ค์ ์ต์ํํฉ๋๋ค.
[ \mathcal{L}{\text{SFT}}(\phi)= -\sum{k}\log $p_\$phi($a_k$ \mid $s_k$) ]
์ฌ๊ธฐ์ ($s_k$)๋ ์๋๋ฆฌ์ค ์์ฝ, ($a_k$)๋ ์ ๋ต ๋์ ๋ฌธ์์ด, (\phi)๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ๋๋ค. ์ต์ ํ ํ ์ป์ ์ ์ฑ (\pi_{\text{SFT}})๋ DCโoptimal openโonly ํ๋์ ์์ฑํฉ๋๋ค.
3.5 ํ์ฑยท๊ฒ์ฆ
์ถ๋ก ์ ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ค์์ ๊ฒ์ฆํฉ๋๋ค.
- ๋ฌธ๋ฒ ์ ํฉ์ฑ
- ๋ชจ๋ ๊ฐ๋ฐฉ ๋ผ์ธ์ด PSPSโ๊ฐ๋ฅ((\x$i_e$=1))
- ์์ฐ ์ค์
๊ฒ์ฆ์ ์คํจํ๋ฉด ํด๋น ์ถ๋ ฅ์ ํ๋ณด ์์ฑ๊ธฐ ๋ก์๋ง ์ฌ์ฉ๋๊ณ , ์ง์ ์ ์ด์ ์ฌ์ฉ๋์ง ์๋๋ก ํฉ๋๋ค.
4. ์ ์ ์ธ์ ์ ํธ ์ ์ (DPO)
DC ๋ชจ๋ฐฉ๋ง์ผ๋ก๋ ๋น์ ํ AC ๋ฌผ๋ฆฌ ํ์์ ์ ์ ํ์ง์ ์ต์ ํํ์ง ๋ชปํฉ๋๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Direct Preference Optimization(DPO)[13] ๊ธฐ๋ฐ ์ ์ ๋จ๊ณ๋ฅผ ๋์ ํฉ๋๋ค. DPO๋ ๊ฐํํ์ต ์์ด ์๋ณ ์ ํธ ((y^{+}, y^{-})) ๋ฅผ ์ด์ฉํด, ์ ์ ํ์ง์ด ๋ ์ข์ ํ๋์ ๋์ ํ๋ฅ ์ ๋ถ์ฌํ๋๋ก ์ ์ฑ ์ ํ์ตํฉ๋๋ค.
4.1 ์ ์ ํ๋ํฐ ๋ฉํธ๋ฆญ
ํ๋ณด ๊ณํ (y)์ ๋ํด ํ ํด๋ก์ง (z(y)) ๋ฅผ ํ์ฑํ๊ณ AC ์ ๋ ฅ ํ๋ฆ์ ํ์ด ๋ฒ์ค ์ ์ (|$V_i$(y)|) ๋ฅผ ์ป์ต๋๋ค. ๋ช ๋ชฉ ์ ์ ์ฃผ๋ณ์ ๋ฐ๋๋ฐด๋ (v_{\text{db}}) ๋ฅผ ๋๊ณ , ๋ค์๊ณผ ๊ฐ์ด ์๋ฐ์ ํ๋ํฐํฉ๋๋ค.
[ V_{\text{pen}}(y)= \begin{cases} \kappa \su$m_i$ \bigl(\max{0, |$V_i$(y)-1|-v_{\text{db}}}\bigr)^p, & \text{AC ์๋ ด ์} \ V_{\text{fail}}, & \text{์๋ ด ์คํจ ์} \end{cases} ]
์ฌ๊ธฐ์ (p\in{1,2})๋ ์ง๊ณ ๋ ธ๋ฆ, (\kappa>0)๋ ์ค์ผ์ผ, (V_{\text{fail}})๋ ํฐ ์์์ ๋๋ค.
4.2 ์ ํธ ์ ๊ตฌ์ฑ
๊ฐ ์๋๋ฆฌ์ค (x)์ ๋ํด (\pi_{\text{SFT}}) ๋ก๋ถํฐ (N)๊ฐ์ ํ๋ณด๋ฅผ ์ํ๋งํ๊ณ , ๋ฌธ๋ฒยท์์ฐ ์๋ฐ์ ์ ๊ฑฐํ ๋ค AC ์ ์ ํ๋ํฐ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ๊ทธ ์ค ์ ์ ํ๋ํฐ๊ฐ ๋ฎ์ ํ๋ณด๋ฅผ (y^{+}), ๋์ ํ๋ณด๋ฅผ (y^{-}) ๋ก ์ง์ ํด ์ ํธ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํฉ๋๋ค.
4.3 DPO ์์ค
์ ์ฑ (\p$i_\$phi) (์ด๊ธฐ๊ฐ (\pi_{\text{SFT}}))์ ๊ธฐ์ค ์ ์ฑ (\pi_{\text{ref}}=\pi_{\text{SFT}})์ ๋ํด ๋ค์์ ์ ์ํฉ๋๋ค.
[ \Delt$a_\$phi(x,y^{+},y^{-}) = \log \frac{\p$i_\$phi(y^{+}\mid x)}{\p$i_\$phi(y^{-}\mid x)},\qquad \Delta_{\text{ref}}(x,y^{+},y^{-}) = \log \frac{\pi_{\text{ref}}(y^{+}\mid x)}{\pi_{\text{ref}}(y^{-}\mid x)}. ]
DPO ์์ค์
[ \mathcal{L}{\text{DPO}}(\phi)= -\sum{(x,y^{+},y^{-})}\log\sigma\bigl(\beta_{\text{DPO}}(\Delt$a_\$phi - \Delta_{\text{ref}})\bigr) ]
์ด๋ฉฐ, (\beta_{\text{DPO}}>0)๋ ์ ํธ ๊ฐ๋๋ฅผ ์กฐ์ ํฉ๋๋ค[13]. ์ต์ ํ ํ ์ป์ (\pi_{\text{DPO}})๋ ์ ์ ์๋ฐ์ ์ต์ํํ๋๋ก ํ๋ฅ ์ ์ฌ์กฐ์ ํฉ๋๋ค.
4.4 ์ค์ฉ์ฑ
์ ํธ ๋ฐ์ดํฐ ์์ฑ์ ์คํ๋ผ์ธ์์ AC ์ ๋ ฅ ํ๋ฆ์ ์ฌ์ฉํด ๋ผ๋ฒจ๋งํ๋ฏ๋ก ๋น์ฉ์ด ๋ค์ง๋ง, ์ถ๋ก ์์๋ ๋จ์ผ ์ท ํน์ BestโofโN ์ฌ์ ๋ ฌ ๋ฐฉ์์ผ๋ก ํ์ฉํ ์ ์์ต๋๋ค. ํ์๋ ํ๋ณด๋ค์ ์ฌ๋ฌ ๊ฐ ์์ฑํ ๋ค ์ ์ ํ๋ํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ต์ ํ๋ณด๋ฅผ ์ ํํ๋ ์ ์ฐจ์ด๋ฉฐ, AC ํ๊ฐ๊ฐ ๊ฐ๋ฅํ ๊ฒฝ์ฐ์ ํนํ ์ ์ฉํฉ๋๋ค.
5. BestโofโN ์ถ๋ก
SFTยทDPO ํ์๋ ๋จ์ผ ์ํ๋ง๋ง์ผ๋ก๋ ์๋ธ์ตํฐ๋ฉํ๊ฑฐ๋ ๋ฌธ๋ฒ ์ค๋ฅ๊ฐ ์๋ ๊ณํ์ด ๋์ฌ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ BestโofโN ๋ฐฉ์์ ๋์ ํด ์ฌ๋ฌ ํ๋ณด๋ฅผ ์์ฑํ๊ณ , ์์ ๋ฉํธ๋ฆญ์ ๋ฐ๋ผ ์ต์ ํ๋ณด๋ฅผ ์ ํํฉ๋๋ค. ์ด๋ ๊ตฌ์กฐํ๋ ์์ธกยท์ถ๋ก ์์ ์์ ์ํ๋ง ๋ค์์ฑ์ ํ์ฉํด ํ์ง์ ํฌ๊ฒ ํฅ์์ํค๋ ์ผ๋ฐ์ ์ธ ๊ธฐ๋ฒ์ด๋ฉฐ, ์ ๋นํ (N) (์: 5โ10) ์์๋ ๊ฐ๋ ฅํ ํจ๊ณผ๋ฅผ ๋ณด์ ๋๋ค[19].
์ ์ฐจ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์ ์ฑ (\pi) (์: (\pi_{\text{SFT}}) ํน์ (\pi_{\text{DPO}})) ๋ก๋ถํฐ (N)๊ฐ์ ๋ ๋ฆฝ ํ๋ณด (y_1,\dots,y_N) ๋ฅผ ์์ฑ.
- ๊ฐ ํ๋ณด์ ๋ํด ๋ฌธ๋ฒ ํ์ฑ โ PSPS/์์ฐ ์ ์ฝ ๊ฒ์ฆ โ DC ํ๋น์ฑ ํ๊ฐ โ (์ ํ์ ) AC ์ ์ ํ๊ฐ ๋ฅผ ์ํ.
- ๊ฒ์ฆ์ ํต๊ณผํ ํ๋ณด ์งํฉ์ (\mathcal{Y}_{\text{valid}}(x)) ๋ก ์ ์. ๋น์ด ์์ผ๋ฉด ์์ ํ ๊ธฐ๋ณธ ๋์(์: ์๋ฌด ๋์๋ ํ์ง ์์)์ผ๋ก ๋์ฒด.
- ๋ค์ ์ค์นผ๋ผ ์ ์๋ฅผ ์ต์ํํ๋ ํ๋ณด๋ฅผ ์ ํ:
[ \text{Score}(x,y)= \begin{cases} J_{\text{DC}}(x,y), & \text{๊ฒฝ์ ์ฑ๋ง ๊ณ ๋ ค} \ V_{\text{pen}}(y), & \text{์ ์ ํ์ง๋ง ๊ณ ๋ ค} \ J_{\text{DC}}(x,y)+\lambda V_{\text{pen}}(y), & \text{๋ ๋ชฉํ ๋ชจ๋ ๊ณ ๋ ค} \end{cases} ]
(\lambda\ge0)๋ ์ด์ ์ฐ์ ์์์ ๋ฐ๋ผ ์กฐ์ ๋ฉ๋๋ค. (N)์ ๋น๋กํด ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ์ง๋ง, ์ํ๋ง์ ์์ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ๋ฏ๋ก ์ค์๊ฐ ์ ์ฝ์ ๋ง๊ฒ (N)์ ์กฐ์ ํ ์ ์์ต๋๋ค. ๋น์ฉยท์๊ฐ ๋ถ์์ SectionโฏIV์์ ์ ์ํฉ๋๋ค.
6. ์คํ ์ค์
6.1 ํ ์คํธ ์์คํ
IEEEโฏ118โbus ์์คํ (MATโPOWER[20])์ ์ฌ์ฉํฉ๋๋ค (($n_b$=118, $n_\$ell=186, $n_g$=54)). ์ง๋ฆฌ์ ์ผ๋ก ์ธ์ ํ ๋ผ์ธ๋ค์ 9๊ฐ์ ์ ์ก ํ๋ (S) ๋ก ๋ฌถ์ด ์ฝ๋ฆฌ๋ ๊ตฌ์กฐ๋ฅผ ์ ์ํ์ผ๋ฉฐ, ๊ฐ ํ๋๋น 8โ20๊ฐ์ ๋ผ์ธ์ด ํฌํจ๋ฉ๋๋ค. PSPS ์ด๋ฒคํธ๋ ํ๋๋ณ ๋ผ์ธ์ ๋ฌด์์๋ก ์ฐจ๋จํด ๊ฐ์ฉ์ฑ ๋ง์คํฌ (\xi) ๋ฅผ ์์ฑํฉ๋๋ค. ๊ธฐ๋ณธ ์ค์ ์์๋ ์ด์์๊ฐ ์ถ๊ฐ๋ก ์ด ์ ์๋ ๋ผ์ธ ์๋ฅผ ($K_\$ell=3) ์ผ๋ก ์ ํํฉ๋๋ค.
6.2 ๋ฐ์ดํฐ
- SFT ๋ฐ์ดํฐ: 200๊ฐ์ PSPS ์๋๋ฆฌ์ค๋ฅผ ํ์ต/ํ ์คํธ๋ก 8:2 ๋น์จ๋ก ๋ถํ .
- DPO ์ ํธ ๋ฐ์ดํฐ: (\pi_{\text{SFT}}) ๋ก๋ถํฐ ์ํ๋งํ ํ๋ณด๋ค์ AC ์ ์ ํ๋ํฐ ๊ธฐ์ค์ผ๋ก ์์ ๋งค๊ฒจ 440๊ฐ์ ((x, y^{+}, y^{-})) ์์ ๊ตฌ์ฑ.
- ์ฝ๋ยท๋ฐ์ดํฐ: ๋ชจ๋ GitHub( MFHChehade/LLM-Grid-Actions )์ ๊ณต๊ฐ.
6.3 ๊ตฌํยท๋ชจ๋ธ
- ์ ๋ ฅ ํ๋ฆยท์ต์ ํ: MATLABโฏR2024b + YALMIP[21].
- LLM: OpenAIโฏfineโtuning API๋ฅผ ์ด์ฉํด ft:gptโ4.1โminiโ2025โ04โ14 ๋ฅผ ๋ฏธ์ธ์กฐ์ .
- SFT: 3 epoch, ๋ฐฐ์น 1, LR multiplier 2, ์ด 453,384 ํ ํฐ ํ์ต.
- DPO: 2 epoch, ๋ฐฐ์น 8, (\beta_{\text{DPO}}=0.1), ์ด 1,611,736 ํ ํฐ ํ์ต.
- ์ ์ ํ๋ํฐ ํ๋ผ๋ฏธํฐ: (v_{\text{db}}=0), (p=1), (\kappa=1).
- ๋น๊ต ๋์: (i) zeroโshot ๋ฒ ์ด์ค LLM, (ii) (\pi_{\text{SFT}}), (iii) (\pi_{\text{DPO}}), (iv) ์ ๊ฒฝ๋ง ๋ฒ ์ด์ค๋ผ์ธ(512โ๋ ธ๋ 1โhiddenโlayer MLP, ๋์ผ ๋ฐ์ดํฐ ์ฌ์ฉ).
6.4 ํ์ต ๊ณก์
Figureโฏ2(aโb)๋ SFT ๊ณผ์ ์์ ๋ก๊ทธ ์์ค์ด ์ด๊ธฐ ๊ธ๊ฐ ํ ์๋งํ ๊ฐ์ํ๊ณ , ํ ํฐ ์ ํ๋๊ฐ ๋น ๋ฅด๊ฒ ์์นํด ์์ ํ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋จผ์ ๋ฌธ๋ฒ์ ํ์ตํ๊ณ , ์ดํ ์๋๋ฆฌ์คโ๋์ ๋งคํ์ ์ ๊ตํํจ์ ์๋ฏธํฉ๋๋ค. Figureโฏ2(cโd)๋ DPO ๋จ๊ณ์์ ์์ค๊ณผ ์ ํธ ์ค๋ฅ์จ์ด ์ง์์ ์ผ๋ก ๊ฐ์ํด, ์ ํธ์ ๋น์ ํธ ๊ณํ์ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌ๋ถํจ์ ํ์ธํ ์ ์์ต๋๋ค.
6.5 ๊ฒฐ๊ณผ ์์ฝ
- AC ์๋ ด ์คํจ์จ: Zeroโshot์ ์ ๋ฐ ์ด์์์ AC ํ๋ฆ์ด ์๋ ดํ์ง ์์ง๋ง, SFT์ DPO๋ ์ด๋ฅผ ์์ ์์ค์ผ๋ก ๊ฐ์์์ผฐ์ผ๋ฉฐ, ์ ๊ฒฝ๋ง ๋ฒ ์ด์ค๋ผ์ธ์ด ๊ฐ์ฅ ๋ฎ์ ์คํจ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
- ์ ์ ํ๋ํฐ: ๊ณตํต ์ฑ๊ณต ์งํฉ(๋ชจ๋ ์ ์ฑ ์ด ACโfeasibleํ ๊ฒฝ์ฐ)์์ DPO๋ ์ค์์ ์ ์ ํ๋ํฐ๊ฐ SFTยทNN๋ณด๋ค ๋ฎ์, ์ ํธ ์ ์ ๊ฐ ์ ์ ํ์ง์ ์ค์ ๋ก ํฅ์์์ผฐ์์ ๋ณด์ฌ์ค๋๋ค. ๋ค๋ง ์์ ๊ผฌ๋ฆฌ(๊ทน๋จ์ ์๋ฐ)๋ ์ฌ์ ํ ์กด์ฌํด, ํฅํ ๋ ํ๋ถํ ์ ํธ ๋ฐ์ดํฐ๊ฐ ํ์ํจ์ ์์ฌํฉ๋๋ค.
- ๊ฒฝ์ ์ฑ: DC ๋ชฉํ (J_{\text{DC}}) ์ธก๋ฉด์์ SFTยทDPO๋ zeroโshot ๋๋น 30โฏ% ์ด์์ ๋น์ฉ ์ ๊ฐ ํจ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, DPO๋ ์ฝ๊ฐ์ ์ถ๊ฐ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.
์ ์ฒด์ ์ผ๋ก ๊ฒ์ฆ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํจ์ผ๋ก์จ, LLM ๊ธฐ๋ฐ ์ ํ ์ด์์คํดํธ๊ฐ ๊ธฐ์กด ์ ๋ ฅ๋ง ๋ถ์ ๋๊ตฌ์ ์ํํ ์ฐ๋๋ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
7. ๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ
์ฐ๋ฆฌ๋ PSPS ์ํฉ์์์ ๊ต์ ๊ฐ๋ฐฉ ์ ํ์ ๋ชฉํ๋ก, MILPโderived DCโoptimal ํ๋์ LLM์ ์ฃผ์ ํ๊ณ , AC ์ ์ ์ธ์ ์ ํธ๋ฅผ ํตํด ์ ์ ํ์ง์ ํฅ์์ํค๋ ๋ ๋จ๊ณ ์ ๋ ฌ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค. ๊ฐ๋ ๋ฏธ์ธ์กฐ์ ์ ๊ตฌ์กฐํ๋ ๋ฌธ๋ฒ๊ณผ ์์ฐ ์ ์ฝ์ ๋ชจ๋ธ์ ๋ด์ฌ์์ผ, ์ถ๋ ฅ์ด ํ์ฑยท๊ฒ์ฆ ๊ฐ๋ฅํ๋๋ก ๋ง๋ค์์ต๋๋ค. DPO ๊ธฐ๋ฐ ์ ํธ ์ ์ ๋ AC ์ ์ ํ๋ํฐ๋ฅผ ์ง์ ํ์ต ๋ชฉํ์ ๋ฐ์ํจ์ผ๋ก์จ, DC ๋ชจ๋ฐฉ๋ง์ผ๋ก๋ ์ป์ ์ ์๋ ์ ์ ์์ ์ฑ์ ํ๋ณดํ์ต๋๋ค. BestโofโN ์ถ๋ก ์ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ์ ํตํด ํ๋ณด ํ์ง์ ๋์ฑ ๋์ด์ฌ๋ฆด ์ ์์์ ํ์ธํ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ IEEEโฏ118โbus PSPS ์๋๋ฆฌ์ค์์ ๊ฒฝ์ ์ฑยทAC ํ๋น์ฑยท์ ์ ํ์ง ๋ชจ๋์์ ๊ธฐ์กด zeroโshot ๋ฐ ์ ๊ฒฝ๋ง ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ์ ์ฒด ํ์ดํ๋ผ์ธ์ ํ์ค ์ ๋ ฅ ํ๋ฆ ๊ฒ์ฆ๊ณผ ํธํ๋๋ฏ๋ก, ์ค์ ์ด์ ํ๊ฒฝ์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ์์ค์ ์ ๋ขฐ์ฑ์ ์ ๊ณตํฉ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋ค์ค ์์ ํตํฉ: ํ๋์ foundation ๋ชจ๋ธ์ ์ฌ๋ฌ ์ ๋ ฅ๋ง ์ ๋ฌด(์: ๋ถํ ์์ธก, ์ฌ์์๋์ง ์ค์ผ์ค๋ง, ๊ณ ์ฅ ์ง๋จ ๋ฑ)์ ์ฐ๊ณํด ํตํฉ ์์ฌ๊ฒฐ์ ํ๋ ์์ํฌ๋ฅผ ๊ตฌ์ถ.
- ์ ํธ ๋ฐ์ดํฐ ํ๋: ์ ์ ์ธ์๋ ์ฃผํ์, ์์ ์ฑ, ๋ณดํธ๊ณ์ ๋ฑ ๋ค์ํ ๋ฌผ๋ฆฌ์ ยท์ด์์ ๋ชฉํ๋ฅผ ํฌํจํ ์ ํธ ์์ ์์งํด ์ ์ ๋จ๊ณ์ ํ๋ถํจ์ ๋์.
- ์ค์๊ฐ ๋ฐฐํฌ: Edgeโcomputing ํ๊ฒฝ์์ LLM ์ถ๋ก ์ ๊ฒฝ๋ํํ๊ณ , ์์ ๊ฒ์ฆ ํ์ดํ๋ผ์ธ๊ณผ ์๋ํ๋ ๋กค๋ฐฑ ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉํด ํ์ฅ ์ ์ฉ์ฑ์ ๊ฒ์ฆ.
- ์ธ๊ฐโ์ธยท๋ฃจํ(HITL) ์ธํฐํ์ด์ค: ์ด์์๊ฐ LLM ์ถ๋ ฅ์ ํผ๋๋ฐฑ์ ์ ๊ณตํ๊ณ , ์ด๋ฅผ ์ฆ์ ๋ชจ๋ธ ์ ๋ฐ์ดํธ์ ๋ฐ์ํ๋ ์ธํฐ๋ํฐ๋ธ ํ์ต ๋ฐฉ์์ ํ์.
๋ณธ ์ฐ๊ตฌ๋ ๊ฒ์ฆ ๊ฐ๋ฅํ๊ณ ์ด์์ ์นํ์ ์ธ LLM ์ด์์คํดํธ๊ฐ ๊ธฐ์กด ์ ๋ ฅ๋ง ๋ถ์ ํด์ ๋ณด์ยท๊ฐํํ๋ ์ฒซ ๊ฑธ์์ด๋ฉฐ, ํฅํ ์ ๋ ฅ ์์คํ ๋์งํธ ์ ํ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.