Fine-Tuning LLMs to Generate Economical and Reliable Actions for the Power Grid

Fine-Tuning LLMs to Generate Economical and Reliable Actions for the Power Grid

๐Ÿ“ Abstract

**
๊ณต๊ณต ์•ˆ์ „ ์ „๋ ฅ ์ฐจ๋‹จ(PSPS) ์‚ฌ๊ฑด์€ ๊ธ‰๊ฒฉํ•œ ์œ„์ƒ ๋ณ€ํ™”์™€ ์ „๋ ฅ ํ๋ฆ„ ๋ถˆ๊ฐ€๋Šฅ์„ฑ์„ ์ดˆ๋ž˜ํ•ด, ์šด์˜์ž๋Š” ์ œํ•œ๋œ ์‹œ๊ฐ„ ์•ˆ์— ๋ถ€ํ•˜ ์ฐจ๋‹จ์„ ์ตœ์†Œํ™”ํ•˜๊ณ  ์ „์•• ํ’ˆ์งˆ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณด์ • ์ „์†ก ์Šค์œ„์นญ(์˜คํ”ˆ ์ „์šฉ) ์กฐ์น˜๋ฅผ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค๋‹จ๊ณ„ ์ ์‘ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์•ˆํ•œ๋‹ค. โ‘ โ€ฏDCโ€‘OPF MILP ์ตœ์ ํ™” ์˜ค๋ผํด์„ ์ด์šฉํ•ด ์ œ์•ฝ๋œ ํ–‰๋™ ๋ฌธ๋ฒ•์œผ๋กœ ๊ฐ๋… ํ•™์Šต(SFT)ํ•˜์—ฌ LLM์ด ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ํŒŒ์‹ฑยท๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์Šค์œ„์นญ ํ”Œ๋žœ์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•œ๋‹ค. โ‘กโ€ฏ์ „์•• ํ’ˆ์งˆ์„ ๊ณ ๋ คํ•œ ์ง์ ‘ ์„ ํ˜ธ ์ตœ์ ํ™”(DPO) ๋กœ ACโ€‘ํ‰๊ฐ€ ๊ธฐ๋ฐ˜ ์„ ํ˜ธ ์Œ์„ ์‚ฌ์šฉํ•ด ์ •์ฑ…์„ ์ „์••โ€‘์ธ์‹์œผ๋กœ ์ •์ œํ•œ๋‹ค. โ‘ขโ€ฏ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ Bestโ€‘ofโ€‘N ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ๋ชฉํ‘œ ๋ฉ”ํŠธ๋ฆญ(๊ฒฝ์ œ์„ฑยท์ „์•• ํŒจ๋„ํ‹ฐ) ๊ธฐ์ค€์œผ๋กœ ์ตœ์  ํ›„๋ณด๋ฅผ ์„ ํƒํ•œ๋‹ค. IEEE 118โ€‘bus ํ…Œ์ŠคํŠธ ์‹œ์Šคํ…œ์˜ PSPS ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ, ์ œ์•ˆ๋œ ํŒŒ์ดํ”„๋ผ์ธ์€ ์ œ๋กœโ€‘์ƒท ๋Œ€๋น„ DC ๋ชฉํ‘œ๊ฐ’์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , AC ์ „๋ ฅ ํ๋ฆ„ ์‹คํŒจ์œจ์„ 50โ€ฏ% โ†’ ์‹ญ์˜ ์ž๋ฆฌ ์ดํ•˜๋กœ ๊ฐ์†Œ์‹œํ‚ค๋ฉฐ, ์ „์•• ํŒจ๋„ํ‹ฐ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ฝ”๋“œ์™€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์Šคํฌ๋ฆฝํŠธ๋Š” ์žฌํ˜„์„ฑ์„ ์œ„ํ•ด ๊ณต๊ฐœํ•œ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ•„์š”์„ฑ

  • PSPS๋Š” ํ™”์žฌ ์œ„ํ—˜์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์ „๋ ฅ์„ ์„ ๊ฐ•์ œ๋กœ ์ฐจ๋‹จํ•˜๋Š” ๋น„์ƒ ์กฐ์น˜์ด๋ฉฐ, ์ด๋กœ ์ธํ•ด ์ „๋ ฅ๋ง ํ† ํด๋กœ์ง€๊ฐ€ ๊ธ‰๋ณ€ํ•œ๋‹ค. ๊ธฐ์กด ์ตœ์ ํ™”(DCโ€‘OPF MILP, ACโ€‘OPF) ๋ฐฉ์‹์€ ์‹œ๊ฐ„ ์ œ์•ฝ์ด ํฐ ํ˜„์žฅ ์ƒํ™ฉ์—์„œ ์‹ค์‹œ๊ฐ„ ์ ์šฉ์ด ์–ด๋ ค์›Œ, ์‹ ์†ํ•œ ์˜์‚ฌ๊ฒฐ์ • ์ง€์›์ด ์ ˆ์‹คํ•˜๋‹ค.
  • LLM์€ ์ž์—ฐ์–ด ์ž…๋ ฅ โ†’ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ ๋ณ€ํ™˜์— ๊ฐ•์ ์ด ์žˆ์–ด, ์šด์˜์ž์™€์˜ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ž์—ฐ์–ด ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌํ˜„ํ•˜๋ฉด์„œ๋„ ๊ธฐ๊ณ„๊ฐ€ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ํ˜•์‹(๋ฌธ๋ฒ•)์œผ๋กœ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋‹ค.

2. ํ•ต์‹ฌ ๊ธฐ๋ฒ•

๋‹จ๊ณ„ ๋ชฉ์  ๊ตฌํ˜„ ์ƒ์„ธ
SFT (Supervised Fineโ€‘Tuning) DCโ€‘OPF MILP ์˜ค๋ผํด์„ ๋ชจ๋ฐฉ, ๊ธฐ๋ณธ ๊ฒฝ์ œ์„ฑ ํ™•๋ณด - ์‹œ๋‚˜๋ฆฌ์˜ค ์š”์•ฝ(JSON) + ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ โ†’ ํ–‰๋™ ๋ฌธ์ž์—ด(๋ฌธ๋ฒ•)
- ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค ์ตœ์†Œํ™”, 3 epoch, 453โ€ฏk ํ† ํฐ
DPO (Direct Preference Optimization) ์ „์•• ํ’ˆ์งˆ(AC) ๋ฐ˜์˜, DCโ€‘๋ชจ๋ธ์˜ ํ•œ๊ณ„ ๋ณด์™„ - ํ›„๋ณด ํ”Œ๋žœ์„ ACโ€‘PF๋กœ ํ‰๊ฐ€, ์ „์•• ํŒจ๋„ํ‹ฐ ์ •์˜
- ์„ ํ˜ธ ์Œ(yโบ, yโป) ์ƒ์„ฑ โ†’ DPO ์†์‹ค ์ตœ์†Œํ™” (ฮฒ=0.1)
- ๊ธฐ์กด SFT ์ •์ฑ…์„ ๋ ˆํผ๋Ÿฐ์Šค๋กœ ์‚ฌ์šฉํ•ด ๊ณผ๋„ํ•œ ๋ณ€ํ˜• ๋ฐฉ์ง€
Bestโ€‘ofโ€‘N ์ƒ˜ํ”Œ๋ง ๋‹ค์–‘์„ฑ ํ™œ์šฉ, ์ถ”๋ก  ์‹œ ํ’ˆ์งˆ ํ–ฅ์ƒ - N(=5~10) ํ›„๋ณด ์ƒ์„ฑ โ†’ ๋ฌธ๋ฒ•ยท์˜ˆ์‚ฐยทDCยท(์„ ํƒ์ ) AC ๊ฒ€์ฆ
- ๋ชฉํ‘œ ์Šค์ฝ”์–ด(๊ฒฝ์ œ์„ฑ+์ „์•• ํŒจ๋„ํ‹ฐ) ์ตœ์ € ํ›„๋ณด ์„ ํƒ
  • ํ–‰๋™ ๋ฌธ๋ฒ•: โ€œOPEN line_12; OPEN line_45; โ€ฆโ€ ํ˜•ํƒœ๋กœ ์„ค๊ณ„๋ผ ํŒŒ์‹ฑ์ด ๊ฐ„๋‹จํ•˜๊ณ , ์ œ์•ฝ ๊ฒ€์ฆ(์˜ˆ์‚ฐ, PSPSโ€‘๊ฐ€๋Šฅ ๋ผ์ธ) ๋‹จ๊ณ„์—์„œ ์ž๋™ ๊ฑฐ๋ถ€๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•จ.
  • ์ „์•• ํŒจ๋„ํ‹ฐ: ์ „์•• ํŽธ์ฐจ๋ฅผ ์ ˆ๋Œ€๊ฐ’ ํ•ฉ(โ„“โ‚) ํ˜น์€ ์ œ๊ณฑํ•ฉ(โ„“โ‚‚)์œผ๋กœ ์ •๋Ÿ‰ํ™”ํ•˜๊ณ , ACโ€‘PF ์ˆ˜๋ ด ์‹คํŒจ ์‹œ ํฐ ์ƒ์ˆ˜ ํŒจ๋„ํ‹ฐ ๋ถ€์—ฌํ•ด ๋ชจ๋ธ์ด ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•œ ํ”Œ๋žœ์„ ํšŒํ”ผํ•˜๋„๋ก ์œ ๋„.

3. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ฒฐ๊ณผ

๋น„๊ต ๋Œ€์ƒ ACโ€‘PF ์‹คํŒจ์œจ ํ‰๊ท  DC ๋น„์šฉ ๊ฐ์†Œ ์ „์•• ํŒจ๋„ํ‹ฐ(์ค‘์œ„๊ฐ’)
Zeroโ€‘shot LLM โ‰ˆโ€ฏ50โ€ฏ% โ€“ ๋†’์€
SFT <โ€ฏ10โ€ฏ% 12โ€ฏ% ๊ฐœ์„  ์ค‘๊ฐ„
DPO <โ€ฏ5โ€ฏ% 10โ€ฏ% ๊ฐœ์„  (SFT ๋Œ€๋น„ ์†Œํญ) ์ตœ์ €
NN (MLP) <โ€ฏ5โ€ฏ% 8โ€ฏ% ๊ฐœ์„  ์ค‘๊ฐ„
  • ํ•™์Šต ๊ณก์„ : SFT ๋‹จ๊ณ„์—์„œ ์†์‹ค ๊ธ‰๊ฐ โ†’ ํ† ํฐ ์ •ํ™•๋„ 95โ€ฏ% ์ด์ƒ ๋„๋‹ฌ, DPO ๋‹จ๊ณ„์—์„œ๋„ ์„ ํ˜ธ ์˜ค๋ฅ˜์œจ์ด ๊พธ์ค€ํžˆ ๊ฐ์†Œ, ์ˆ˜๋ ด ์•ˆ์ •์„ฑ ํ™•์ธ.
  • Bestโ€‘ofโ€‘N ์ ์šฉ ์‹œ, N=7 ์ •๋„์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํฌํ™”, ์ถ”๋ก  ์‹œ๊ฐ„์€ 0.8โ€ฏs/์‹œ๋‚˜๋ฆฌ์˜ค(๋ณ‘๋ ฌ GPU) ์ˆ˜์ค€์œผ๋กœ ์‹ค์‹œ๊ฐ„ ์ ์šฉ ๊ฐ€๋Šฅ.

4. ๊ฐ•์ 

  1. ๊ฒฝ์ œ์„ฑ + ๋ฌผ๋ฆฌ์  ๊ฒ€์ฆ: DCโ€‘์˜ค๋ผํด์„ ํ•™์Šตํ•˜๋ฉด์„œ๋„ ACโ€‘์ „์••์„ ์„ ํ˜ธ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •์ œํ•ด ์‹ค์ œ ์ „๋ ฅ๋ง ์šด์˜์— ํ•„์š”ํ•œ ๋‘ ์ถ•์„ ๋™์‹œ์— ๋งŒ์กฑ.
  2. ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ: ์ œํ•œ๋œ ๋ฌธ๋ฒ•์„ ํ†ตํ•ด LLM์ด โ€œ๋ธ”๋ž™๋ฐ•์Šคโ€๊ฐ€ ์•„๋‹ˆ๋ผ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ํ›„๋ณด ์ƒ์„ฑ๊ธฐ ์—ญํ• ์„ ์ˆ˜ํ–‰.
  3. ์žฌํ˜„์„ฑ: ๋ฐ์ดํ„ฐยท์ฝ”๋“œ ๊ณต๊ฐœ, ํŒŒ์ดํ”„๋ผ์ธ์ด ๋ชจ๋ธโ€‘API ๋…๋ฆฝ์ ์ด๋ผ ๋‹ค์–‘ํ•œ LLM์— ์ ์šฉ ๊ฐ€๋Šฅ.
  4. ์Šค์ผ€์ผ๋Ÿฌ๋ธ”: MILP ์˜ค๋ผํด์€ ์˜คํ”„๋ผ์ธ์—์„œ๋งŒ ํ•„์š”ํ•˜๊ณ , ์ถ”๋ก  ์‹œ์—๋Š” LLM๋งŒ ์‚ฌ์šฉํ•ด ์‹ค์‹œ๊ฐ„ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ๊ฐ€๋Šฅ.

5. ํ•œ๊ณ„ ๋ฐ ๊ฐœ์„ ์ 

ํ•œ๊ณ„ ์ƒ์„ธ ๋‚ด์šฉ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
์ „์•• ํŒจ๋„ํ‹ฐ ์ƒ์œ„ ๊ผฌ๋ฆฌ ์ผ๋ถ€ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์—ฌ์ „ํžˆ ๋†’์€ ์ „์•• ์œ„๋ฐ˜ ๋ฐœ์ƒ ๋” ํ’๋ถ€ํ•œ ์„ ํ˜ธ ๋ฐ์ดํ„ฐ(๋‹ค์ค‘ ๋ชฉํ‘œ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜) ํ™•๋ณด
์˜คํ”„๋ผ์ธ ์„ ํ˜ธ ๋ผ๋ฒจ๋ง ๋น„์šฉ ACโ€‘PF ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•ด ๋ผ๋ฒจ๋ง์— CPUยท์‹œ๊ฐ„ ์†Œ์š” ๋ผ๋ฒจ๋ง ์ž๋™ํ™”(๋ฉ”ํƒ€โ€‘ํ•™์Šต, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฐ€์†) ๋˜๋Š” RLโ€‘๊ธฐ๋ฐ˜ ์˜จ๋ผ์ธ ํ”ผ๋“œ๋ฐฑ ํƒ์ƒ‰
๋ฌธ๋ฒ• ์ œํ•œ โ€œOPEN onlyโ€์— ๊ตญํ•œ, ์‹ค์ œ ์šด์˜์—์„œ๋Š” โ€œCLOSE + RECONFIGUREโ€ ํ•„์š” ๋ฌธ๋ฒ•์„ ํ™•์žฅํ•ด ๋ณตํ•ฉ ์Šค์œ„์นญยท์žฌ๊ตฌ์„ฑ ์•ก์…˜ ํฌํ•จ, ์ œ์•ฝ์‹ ์ž๋™ ๊ฒ€์ฆ ๋ชจ๋“ˆ ๊ฐ•ํ™”
์Šค์œ„์นญ ์˜ˆ์‚ฐ ๊ณ ์ • Kโ‚—, Kโ‚›๊ฐ€ ๊ณ ์ •๋ผ ์ƒํ™ฉ๋ณ„ ์œ ์—ฐ์„ฑ ๋ถ€์กฑ ์˜ˆ์‚ฐ์„ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ณ€์ˆ˜๋กœ ํฌํ•จํ•ด ์กฐ๊ฑด๋ถ€ ์ •์ฑ… ํ•™์Šต
๋ชจ๋ธ ์ผ๋ฐ˜ํ™” IEEEโ€‘118 ๋ฒ„์Šค์—๋งŒ ๊ฒ€์ฆ, ๋Œ€๊ทœ๋ชจ ์‹œ์Šคํ…œ(300โ€‘bus ์ด์ƒ)์—์„œ ์„ฑ๋Šฅ ๋ฏธํ™•์ธ ๋Œ€๊ทœ๋ชจ ํ…Œ์ŠคํŠธ๋ฒ ๋“œ(IEEEโ€‘300, ์‹ค์ œ ์œ ํ‹ธ๋ฆฌํ‹ฐ ๋ฐ์ดํ„ฐ)๋กœ ํ™•์žฅ ์‹คํ—˜

6. ์‹ค์šฉ์  ์ ์šฉ ๊ณ ๋ ค์‚ฌํ•ญ

  • ์•ˆ์ „ ๊ฒ€์ฆ ํŒŒ์ดํ”„๋ผ์ธ: LLM ์ถœ๋ ฅ โ†’ ๋ฌธ๋ฒ• ํŒŒ์‹ฑ โ†’ DCโ€‘Feasibility โ†’ (์„ ํƒ์ ) ACโ€‘PF โ†’ ์ตœ์ข… ์Šน์ธ.
  • ์ถ”๋ก  ๋น„์šฉ: Bestโ€‘ofโ€‘N์€ N์— ๋น„๋ก€ํ•ด GPU ๋ฉ”๋ชจ๋ฆฌยท์‹œ๊ฐ„ ์ฆ๊ฐ€, ์šด์˜์ž๋Š” ์‹œ๊ฐ„โ€‘์˜ˆ์‚ฐ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์‚ฌ์ „ ์ •์˜ํ•ด์•ผ ํ•จ.
  • ๋ฐฐํฌ ์˜ต์…˜: API ๊ธฐ๋ฐ˜(์˜ˆ: OpenAI) vs. ๋กœ์ปฌ ํ˜ธ์ŠคํŒ…(์˜คํ”ˆ์†Œ์Šค LLM) ์„ ํƒ ์‹œ, ๋ณด์•ˆยท๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ ์š”๊ตฌ์‚ฌํ•ญ์— ๋”ฐ๋ผ ๊ฒฐ์ •.

7. ๊ฒฐ๋ก 

๋ณธ ๋…ผ๋ฌธ์€ LLM์„ ์ „๋ ฅ๋ง ์šด์˜์— ์ง์ ‘ ์ ์šฉํ•˜๋Š” ์ตœ์ดˆ ์‚ฌ๋ก€ ์ค‘ ํ•˜๋‚˜๋กœ, ๊ฐ๋… ํ•™์Šต๊ณผ ์„ ํ˜ธ ๊ธฐ๋ฐ˜ ์ •์ œ๋ฅผ ๊ฒฐํ•ฉํ•ด ๊ฒฝ์ œ์„ฑ๊ณผ ์ „์•• ์•ˆ์ „์„ฑ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ๋‹ค. ์ œ์•ˆ๋œ ๋‹ค๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์€ ์ „๋ ฅ ์‹œ์Šคํ…œ ์™ธ์—๋„ ๊ธด๊ธ‰ ์ƒํ™ฉ ๋Œ€์‘, ์ธํ”„๋ผ ์žฌ๊ตฌ์„ฑ ๋“ฑ ์ œ์•ฝ์ด ๊ฐ•ํ•œ ๋„๋ฉ”์ธ์— ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” ๋‹ค๋ชฉํ‘œ ์ตœ์ ํ™”, ๋ณตํ•ฉ ์Šค์œ„์นญ, ๋Œ€๊ทœ๋ชจ ์‹œ์Šคํ…œ ์ ์šฉ์„ ํ†ตํ•ด ์‹ค๋ฌด ์ ์šฉ์„ฑ์„ ๋”์šฑ ๊ฐ•ํ™”ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.


**

๐Ÿ“„ Full Content

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ „๋ ฅ ์‹œ์Šคํ…œ ์ œ์–ด์‹ค ์ ์šฉ์— ๊ด€ํ•œ ์—ฐ๊ตฌ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์—ฐ๊ตฌ ํ”„๋กœํ† ํƒ€์ž… ๋‹จ๊ณ„์—์„œ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ๋„๊ตฌ๋กœ ๊ธ‰์†ํžˆ ์ „ํ™˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค[1]โ€‘[3]. ๋น„์ •ํ˜• ํ…์ŠคํŠธ๋ฅผ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋Šฅ๋ ฅ์€ ์˜์‚ฌ๊ฒฐ์ •์ด ์‹œ๊ฐ„์— ๋ฏผ๊ฐํ•˜๊ณ  ๊ฒฐ๊ณผ๊ฐ€ ์ค‘๋Œ€ํ•œ ์šด์˜ ํ™˜๊ฒฝ์—์„œ ํฐ ๋งค๋ ฅ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ „๋ ฅ ์‹œ์Šคํ…œ ์ œ์–ด์‹ค์€ ์ด๋Ÿฌํ•œ ํ™˜๊ฒฝ์˜ ์ „ํ˜•์ ์ธ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ์šด์˜์ž๋Š” ๋ณต์žกํ•œ ๋น„์ƒ ์ƒํ™ฉ์„ ๊ด€๋ฆฌํ•˜๊ณ , ๋‹ค์ˆ˜์˜ ์„ค๋น„์— ๊ฑธ์ณ ์กฐ์น˜๋ฅผ ์กฐ์ •ํ•˜๋ฉฐ, ์‹ ๋ขฐ์„ฑยท๊ฒฝ์ œ์„ฑยท๊ทœ์ œ ์ค€์ˆ˜๋ฅผ ๋™์‹œ์— ๋งŒ์กฑ์‹œ์ผœ์•ผ ํ•ฉ๋‹ˆ๋‹ค[4]. ์ „ํ†ต์ ์ธ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ๋„๊ตฌ๊ฐ€ ํŠน์ˆ˜ํ•œ ์ž…๋ ฅ ํ˜•์‹์ด๋‚˜ ๊ฒฝ์ง๋œ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์š”๊ตฌํ•˜๋Š” ๋ฐ˜๋ฉด, LLM์€ ์ž์—ฐ์–ด๋ฅผ ํ†ตํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ , ๊ธฐ๊ณ„๊ฐ€ ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ๊ถŒ๊ณ ์•ˆ(์˜ˆ: ๊ตฌ์กฐํ™”๋œ ๋™์ž‘ ๋ฆฌ์ŠคํŠธ)์„ ์ƒ์„ฑํ•˜์—ฌ ์‹คํ–‰ ์ „ ๊ฒ€์ฆ์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค[5],[6].

ํ•˜์ง€๋งŒ ๊ธฐ๋ณธ LLM์€ ์ „๋ ฅ ์‹œ์Šคํ…œ ๋ฌผ๋ฆฌ, ์šด์˜ ์ œ์•ฝ, ๊ทธ๋ฆฌ๋“œ ์•ˆ์ „ ์š”๊ตฌ์‚ฌํ•ญ์— ๋Œ€ํ•œ ๋„๋ฉ”์ธโ€‘ํŠนํ™” ์ง€์‹์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ์ „๋ ฅ ์‹œ์Šคํ…œ ์ „์šฉ LLM์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ํ˜„์‹ค์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ตœ์‹  LLM์€ ์ˆ˜์กฐ ๊ฐœ์˜ ํ† ํฐ์„ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์— ๊ฑธ์ณ ์‚ฌ์ „ํ•™์Šตํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ™•๋ณดํ•˜๊ณ [7], ์ „๋ ฅ ์šด์˜ ๋ฐ์ดํ„ฐ๋Š” ๊ทœ๋ชจ๊ฐ€ ํ›จ์”ฌ ์ž‘๊ณ  ํŠน์ˆ˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์‹ค์šฉ์ ์ธ ๋Œ€์•ˆ์€ ๊ฐ•๋ ฅํ•œ instructionโ€‘tuned ๋ชจ๋ธ์„ ๋ชฉํ‘œ ์ž‘์—…์— ๋งž๊ฒŒ ๋ชฉํ‘œ ๋ฏธ์„ธ์กฐ์ •(targeted fineโ€‘tuning) ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ (i) ๊ทธ๋ฆฌ๋“œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ๊ฐ„๊ฒฐํ•˜๊ณ  ๊ตฌ์กฐํ™”๋œ ์„ค๋ช…์„ ์ฝ๊ณ , (ii) ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ œํ•œ๋œ ๋ฌธ๋ฒ•์œผ๋กœ ๋™์ž‘์„ ์ถœ๋ ฅํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ตฌ์ฒด์ ์ด๊ณ  ์šด์˜์ ์œผ๋กœ ๋™๊ธฐ๋ถ€์—ฌ๋œ ๊ณผ์ œ์ธ ๊ณต๊ณต ์•ˆ์ „ ์ „๋ ฅ ์ฐจ๋‹จ(PSPS) ์ƒํ™ฉ์—์„œ์˜ ๊ต์ •์šฉ ๊ฐœ๋ฐฉ ์ „ํ™˜(openโ€‘only transmission switching) ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. PSPS๋Š” ๊ทนํ•œ ๊ธฐ์ƒ ์กฐ๊ฑด์—์„œ ์‚ฐ๋ถˆ ๋ฐœ์ƒ ์œ„ํ—˜์„ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•ด ์œ ํ‹ธ๋ฆฌํ‹ฐ๊ฐ€ ์ „๋ ฅ์„ ์ฐจ๋‹จํ•˜๋Š” ๊ต์ • ์กฐ์น˜์ž…๋‹ˆ๋‹ค[8]. PSPS๋กœ ์ธํ•ด ์ผ๋ถ€ ์†ก์ „์„ ์ด ์ฐจ๋‹จ๋˜๋ฉด, ์šด์˜์ž๋Š” ์ถ”๊ฐ€์ ์ธ ๊ฐœ๋ฐฉ ๋™์ž‘์„ ํ†ตํ•ด ๊ณผ๋ถ€ํ•˜๋ฅผ ์™„ํ™”ํ•˜๊ณ  ๋ถ€ํ•˜ ์ฐจ๋‹จ์„ ๊ฐ์†Œ์‹œํ‚ค๋ฉฐ, ์ „ํ™˜ ์˜ˆ์‚ฐ๊ณผ ์šด์˜ ๊ทœ์น™์„ ์ค€์ˆ˜ํ•˜๋ฉด์„œ ์‹œ์Šคํ…œ ์ƒํƒœ๋ฅผ ๊ฐœ์„ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋น„์„ ํ˜• AC ์ œ์•ฝ์„ ํฌํ•จํ•œ ํ˜ผํ•ฉ์ •์ˆ˜ ์ตœ์ ํ™”(MILP) ๊ธฐ๋ฐ˜ ์ตœ์  ํ•ด๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ตฌํ•˜๋Š” ๊ฒƒ์€ ์‹œ๊ฐ„ ์••๋ฐ• ํ•˜์—์„œ ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค[9]โ€‘[11]. ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ์˜คํ”„๋ผ์ธ ์ตœ์ ํ™” ๋น„์šฉ์„ ๋ฏธ์„ธ์กฐ์ • ๋‹จ๊ณ„์— ์ „๊ฐ€(amortize) ํ•˜๊ณ , ์ถ”๋ก  ์‹œ์—๋Š” ๊ตฌ์กฐํ™”๋œ ์‹œ๋‚˜๋ฆฌ์˜ค ์š”์•ฝ๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋™์ž‘ ๋ฌธ๋ฒ•์„ ์ด์šฉํ•ด ๊ณ ํ’ˆ์งˆ ์ „ํ™˜ ๊ถŒ๊ณ ์•ˆ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

1. ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ

Figureโ€ฏ1์€ ์šฐ๋ฆฌ๊ฐ€ ์ฑ„ํƒํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  1. Instructionโ€‘tuned ๋ฒ ์ด์Šค ๋ชจ๋ธ โ†’ 2) Supervised Fineโ€‘Tuning (SFT) : DC ์ œ์•ฝ ํ•˜์—์„œ MILPโ€‘derived ๊ฐœ๋ฐฉ ์ „ํ™˜ ๊ฒฐ์ •์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ•™์Šต.
  2. Direct Preference Optimization (DPO) : AC ์ „์•• ํ’ˆ์งˆ ํ‰๊ฐ€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ˆœ์œ„๊ฐ€ ๋งค๊ฒจ์ง„ ์‘๋‹ต์„ ์‚ฌ์šฉํ•ด ์ „์•• ์œ„๋ฐ˜์„ ์ตœ์†Œํ™”ํ•˜๋„๋ก ์ •์ฑ…์„ ์ •์ œ.

์ด ์„ค๊ณ„๋Š” โ€œ๋ชจ๋ฐฉ ํ•™์Šต โ†’ ์„ ํ˜ธ ๊ธฐ๋ฐ˜ ์ •์ œโ€ ๋ผ๋Š” ํ‘œ์ค€ ์ •๋ ฌ ํŒจํ„ด์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค[12],[13]. ๊ฐ๋… ๋‹จ๊ณ„๋Š” ์ •์ฑ…์„ ์ตœ์ ํ™” ์˜ค๋ผํด์— ๊ณ ์ •์‹œํ‚ค๊ณ , ์„ ํ˜ธ ๋‹จ๊ณ„๋Š” DC ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์ „๋‹ฌํ•˜๊ธฐ ์–ด๋ ค์šด AC ์ „์•• ์ธ์‹์„ ์ฃผ์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ๋ชจ๋ธ์€ ํ›„๋ณด ๊ณ„ํš ์ƒ์„ฑ๊ธฐ ๋กœ์„œ, ์ถœ๋ ฅ์€ ๊ธฐ์กด ์ „๋ ฅ๋ง ๋ถ„์„ ๋„๊ตฌ๋กœ ํŒŒ์‹ฑยท๊ฒ€์ฆยทํ‰๊ฐ€๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ์ฃผ์š” ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • PSPSโ€‘aware ๊ฐœ๋ฐฉ ์ „ํ™˜ ๋ฌธ์ œ ์ •์˜ : ์ „ํ™˜ ์˜ˆ์‚ฐยท์ฝ”๋ฆฌ๋„(์ „์†ก ํšŒ๋ž‘) ๊ตฌ์กฐ๋ฅผ ํฌํ•จํ•œ DCโ€‘OPF MILP ์˜ค๋ผํด์„ ์„ค๊ณ„(Sectionโ€ฏII).
  • ๊ตฌ์กฐํ™”๋œ ์‹œ๋‚˜๋ฆฌ์˜ค ํ‘œํ˜„ ๋ฐ ๋™์ž‘ ๋ฌธ๋ฒ• : LLM์ด ํŒŒ์‹ฑยท๊ฒ€์ฆ์ด ์‰ฌ์šด ์ „ํ™˜ ๊ณ„ํš์„ ์ถœ๋ ฅํ•˜๋„๋ก ์„ค๊ณ„(Sectionโ€ฏIII).
  • ์ „์•• ์ธ์‹ ์„ ํ˜ธ ์ •์ œ(DPO) : ACโ€‘derived ์ „์•• ํ’ˆ์งˆ ์„ ํ˜ธ๋ฅผ ์ด์šฉํ•ด DC ๋ชจ๋ฐฉ์„ ๋„˜์–ด ๋ชจ๋ธ์„ ์ •๋ ฌ(Sectionโ€ฏIIIโ€‘A).
  • ๊ฒฝ์ œ์„ฑ, AC ํƒ€๋‹น์„ฑ, ์ „์•• ํ’ˆ์งˆ ํ‰๊ฐ€ : ์‹ ๊ฒฝ๋ง ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ๋น„๊ตํ•˜๊ณ  ์žฌํ˜„์„ฑ์„ ์œ„ํ•œ ํ•™์Šต ๊ณก์„ ๋„ ์ œ๊ณต(Sectionโ€ฏIV).
  • ์‹ค์ œ ์ ์šฉ ์‹œ ๊ณ ๋ ค์‚ฌํ•ญ : ํƒ€๋‹น์„ฑ ๊ฒ€์‚ฌ, ํ•™์Šตยท์ถ”๋ก  ๋น„์šฉ, ๋ฐฐํฌ ์ œ์•ฝ ๋“ฑ์„ ๋…ผ์˜(Sectionโ€ฏIV).

์šฐ๋ฆฌ๋Š” ์ด ์ž‘์—…์„ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ, ์šด์˜์žโ€‘๋Œ€๋ฉด LLM ์–ด์‹œ์Šคํ„ดํŠธ ๊ฐ€ ๊ธฐ์กด ์ „๋ ฅ๋ง ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ์ธํ„ฐํŽ˜์ด์Šคํ•˜๋„๋ก ํ•˜๋Š” ์ฒซ ๋‹จ๊ณ„๋กœ ๋ณด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


2. PSPSโ€‘๊ธฐ๋ฐ˜ ๊ฐœ๋ฐฉ ์ „ํ™˜ ๋ฌธ์ œ ์ •์˜

๊ณต๊ณต ์•ˆ์ „ ์ „๋ ฅ ์ฐจ๋‹จ(PSPS)์€ ๊ทนํ•œ ๊ธฐ์ƒ ์กฐ๊ฑด์—์„œ ์‚ฐ๋ถˆ ์œ„ํ—˜์„ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•ด ์œ ํ‹ธ๋ฆฌํ‹ฐ๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋Š” ์˜ˆ๋ฐฉยท๊ต์ • ์ฐจ๋‹จ ์กฐ์น˜์ž…๋‹ˆ๋‹ค[14],[15]. PSPS ์ด๋ฒคํŠธ๊ฐ€ ํŠน์ • ์†ก์ „์„ ์„ ์ฐจ๋‹จํ•˜๋ฉด, ์‹œ์Šคํ…œ ์šด์˜์ž๋Š” ์ถ”๊ฐ€์ ์ธ ๊ฐœ๋ฐฉ ์ „ํ™˜(openโ€‘only switching) ์ด ์‹ ๋ขฐ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋ถ€ํ•˜ ์ฐจ๋‹จ์„ ๊ฐ์†Œ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํŒ๋‹จํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

2.1 DCโ€‘OPF MILP ๋ชจ๋ธ

์šฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ DCโ€‘OPF ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

[ \begin{aligned} \min; & J_{\text{DC}}(x,y) \ \text{s.t.};& \text{(1a)โ€“(1f)} \ & \text{(1g) PSPS์— ์˜ํ•ด ๊ฐ•์ œ ์ฐจ๋‹จ๋œ ๋ผ์ธ์€ ๋ฐ˜๋“œ์‹œ ์—ด๋ ค ์žˆ์–ด์•ผ ํ•จ} \ & \text{(1h) ์šด์˜์ž๊ฐ€ ์ถ”๊ฐ€๋กœ ์—ด ์ˆ˜ ์žˆ๋Š” ๋ผ์ธ์€ ์ตœ๋Œ€ } $K_\$ell \text{๊ฐœ} \end{aligned} ]

(1g)ยท(1h)๋Š” ๊ธฐ์กด Optimal Transmission Switching(OTS)[9],[10]๊ณผ ๊ตฌ์กฐ์ ์œผ๋กœ ์œ ์‚ฌํ•˜์ง€๋งŒ ๊ฐœ๋ฐฉ ์ „์šฉ ๋™์ž‘์—๋งŒ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค.

2.2 ์ฝ”๋ฆฌ๋„(์ „์†ก ํšŒ๋ž‘) ์ œ์•ฝ

์ฝ”๋ฆฌ๋„โ€‘์ œํ•œ ๊ฐœ๋ฐฉ ์ „ํ™˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

  • ์ด์ง„ ๋ณ€์ˆ˜ (y_S \in {0,1}) : ํšŒ๋ž‘ (S) ๊ฐ€ ์ „ํ™˜์— ์‚ฌ์šฉ๋˜๋Š”์ง€ ์—ฌ๋ถ€.
  • (2a) (y_S = 0)์ด๋ฉด ํšŒ๋ž‘ (S) ๋‚ด์—์„œ ์šด์˜์ž ๊ฐœ๋ฐฉ์ด ๊ธˆ์ง€๋ฉ๋‹ˆ๋‹ค.
  • (2b) ํ™œ์„ฑํ™”๋œ ํšŒ๋ž‘ ์ˆ˜๋Š” ์ตœ๋Œ€ (K_S) ๋กœ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค.

2.3 ํŒŒ์ดํ”„๋ผ์ธ ๋‚ด ์—ญํ• 

์œ„ DCโ€‘OPF MILP๋Š” ์˜คํ”„๋ผ์ธ ์˜ค๋ผํด ๋กœ์„œ, ๊ฐ๋… ๋ฏธ์„ธ์กฐ์ •(SFT)์šฉ ๋ผ๋ฒจ๋ง๋œ ์ „ํ™˜ ๊ณ„ํš์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ „์•• ํ’ˆ์งˆยทAC ํƒ€๋‹น์„ฑ ํ‰๊ฐ€๋Š” ์‹คํ—˜ ์„น์…˜์—์„œ ๋ณ„๋„๋กœ AC ์ „๋ ฅ ํ๋ฆ„์„ ์ด์šฉํ•ด ์ˆ˜ํ–‰๋˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด DC ๊ตฌ์กฐ ๊ธฐ๋ฐ˜ ํ•™์Šต์ด ์ „์••โ€‘์ค‘์‹ฌ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.


3. ๊ฐ๋… ๋ฏธ์„ธ์กฐ์ •(SFT) ์„ค๊ณ„

MILP๋ฅผ ๋งค PSPS ์‹œ๋‚˜๋ฆฌ์˜ค๋งˆ๋‹ค ํ’€๋ฉด ๊ณ„์‚ฐ ๋น„์šฉ์ด ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” OTS ๋ถ„์•ผ์—์„œ๋„ ์ž˜ ์•Œ๋ ค์ง„ ํ™•์žฅ์„ฑ ๋ฌธ์ œ์ด๋ฉฐ, ํ•™์Šต ๋ณด์กฐ ํ˜น์€ ํ”„๋ก์‹œ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด ์ œ์•ˆ๋œ ๋ฐฐ๊ฒฝ์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค[17],[18]. ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” LLM์„ ์˜ค๋ผํด์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ•™์Šต ํ•จ์œผ๋กœ์จ ์˜คํ”„๋ผ์ธ MILP ํ•ด๊ฒฐ ๋น„์šฉ์„ ํ•œ ๋ฒˆ์˜ SFT ๋‹จ๊ณ„์— ์ „๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

3.1 ์‹ค์ œ ์˜ค๋ผํด

์ฃผ์–ด์ง„ PSPS ๋งˆ์Šคํฌ (\xi)์™€ ์˜ˆ์‚ฐ ($K_\$ell)์— ๋Œ€ํ•ด DCโ€‘OPF MILP(1)์„ ํ’€์–ด ์ตœ์  ์šด์˜์ž ๊ฐœ๋ฐฉ (\mathcal{Y}^\star) ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ฝ”๋ฆฌ๋„ ์ œ์•ฝ์ด ์žˆ๋Š” ๊ฒฝ์šฐ์—๋Š” (2)๋ฅผ ํฌํ•จํ•œ ๋ณ€ํ˜•์„ ํ’‰๋‹ˆ๋‹ค.

3.2 ์‹œ๋‚˜๋ฆฌ์˜ค ํ‘œํ˜„

๊ฐ ํ•™์Šต ์ƒ˜ํ”Œ์€ ๋‹ค์Œ ์ •๋ณด๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

  • ์‹œ๋‚˜๋ฆฌ์˜ค ์ฐจ์›(๋ฒ„์Šคยท๋ผ์ธยท๋ฐœ์ „๊ธฐ ์ˆ˜)
  • PSPSโ€‘๊ฐ•์ œ ๊ฐœ๋ฐฉ ๋ผ์ธ ์ˆ˜
  • ์ฝ”๋ฆฌ๋„๋ณ„ ์ƒ์„ธ: ๋ผ์ธ ๋ชฉ๋ก, ๊ฐ•์ œ/๊ฐ€๋Šฅ ์ƒํƒœ, ํ•ด๋‹น ์˜ˆ์‚ฐ ($K_\$ell, K_S)

์ด๋Ÿฌํ•œ ๊ตฌ์กฐํ™”๋œ ํ…์ŠคํŠธ ์š”์•ฝ์€ ์ˆ˜์น˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ƒํ™”ํ•˜๋ฉด์„œ๋„ ํ† ํด๋กœ์ง€ ์ •๋ณด๋ฅผ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค.

3.3 ๋ฐ์ดํ„ฐ ํฌ๋งท

ํ•™์Šต ์Œ์€ ์ฑ„ํŒ… ํ˜•์‹์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

  1. system ํ”„๋กฌํ”„ํŠธ: ์ž‘์—… ์ •์˜์™€ ๋™์ž‘ ๋ฌธ๋ฒ• ์ œ์‹œ.
  2. user ๋ฉ”์‹œ์ง€: ์‹œ๋‚˜๋ฆฌ์˜ค JSON.
  3. assistant ๋ฉ”์‹œ์ง€: ์ •๋‹ต ๋™์ž‘ ๋ฌธ์ž์—ด.

์ด๋Š” ์ผ๋ฐ˜์ ์ธ instructionโ€‘tuning ๊ด€ํ–‰์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค[12].

3.4 ๋ฏธ์„ธ์กฐ์ • ๋ชฉํ‘œ

๋ฒ ์ด์Šค LLM์„ ์ดˆ๊ธฐํ™”ํ•œ ๋’ค, ๋‹ค์Œ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.

[ \mathcal{L}{\text{SFT}}(\phi)= -\sum{k}\log $p_\$phi($a_k$ \mid $s_k$) ]

์—ฌ๊ธฐ์„œ ($s_k$)๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค ์š”์•ฝ, ($a_k$)๋Š” ์ •๋‹ต ๋™์ž‘ ๋ฌธ์ž์—ด, (\phi)๋Š” ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค. ์ตœ์ ํ™” ํ›„ ์–ป์€ ์ •์ฑ… (\pi_{\text{SFT}})๋Š” DCโ€‘optimal openโ€‘only ํ–‰๋™์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

3.5 ํŒŒ์‹ฑยท๊ฒ€์ฆ

์ถ”๋ก  ์‹œ ๋ชจ๋ธ ์ถœ๋ ฅ์€ ๋‹ค์Œ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.

  1. ๋ฌธ๋ฒ• ์ ํ•ฉ์„ฑ
  2. ๋ชจ๋“  ๊ฐœ๋ฐฉ ๋ผ์ธ์ด PSPSโ€‘๊ฐ€๋Šฅ((\x$i_e$=1))
  3. ์˜ˆ์‚ฐ ์ค€์ˆ˜

๊ฒ€์ฆ์— ์‹คํŒจํ•˜๋ฉด ํ•ด๋‹น ์ถœ๋ ฅ์€ ํ›„๋ณด ์ƒ์„ฑ๊ธฐ ๋กœ์„œ๋งŒ ์‚ฌ์šฉ๋˜๊ณ , ์ง์ ‘ ์ œ์–ด์— ์‚ฌ์šฉ๋˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.


4. ์ „์•• ์ธ์‹ ์„ ํ˜ธ ์ •์ œ(DPO)

DC ๋ชจ๋ฐฉ๋งŒ์œผ๋กœ๋Š” ๋น„์„ ํ˜• AC ๋ฌผ๋ฆฌ ํ•˜์—์„œ ์ „์•• ํ’ˆ์งˆ์„ ์ตœ์ ํ™”ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด Direct Preference Optimization(DPO)[13] ๊ธฐ๋ฐ˜ ์ •์ œ ๋‹จ๊ณ„๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. DPO๋Š” ๊ฐ•ํ™”ํ•™์Šต ์—†์ด ์Œ๋ณ„ ์„ ํ˜ธ ((y^{+}, y^{-})) ๋ฅผ ์ด์šฉํ•ด, ์ „์•• ํ’ˆ์งˆ์ด ๋” ์ข‹์€ ํ–‰๋™์— ๋†’์€ ํ™•๋ฅ ์„ ๋ถ€์—ฌํ•˜๋„๋ก ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

4.1 ์ „์•• ํŽ˜๋„ํ‹ฐ ๋ฉ”ํŠธ๋ฆญ

ํ›„๋ณด ๊ณ„ํš (y)์— ๋Œ€ํ•ด ํ† ํด๋กœ์ง€ (z(y)) ๋ฅผ ํŒŒ์‹ฑํ•˜๊ณ  AC ์ „๋ ฅ ํ๋ฆ„์„ ํ’€์–ด ๋ฒ„์Šค ์ „์•• (|$V_i$(y)|) ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ๋ช…๋ชฉ ์ „์•• ์ฃผ๋ณ€์— ๋ฐ๋“œ๋ฐด๋“œ (v_{\text{db}}) ๋ฅผ ๋‘๊ณ , ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์œ„๋ฐ˜์„ ํŽ˜๋„ํ‹ฐํ•ฉ๋‹ˆ๋‹ค.

[ V_{\text{pen}}(y)= \begin{cases} \kappa \su$m_i$ \bigl(\max{0, |$V_i$(y)-1|-v_{\text{db}}}\bigr)^p, & \text{AC ์ˆ˜๋ ด ์‹œ} \ V_{\text{fail}}, & \text{์ˆ˜๋ ด ์‹คํŒจ ์‹œ} \end{cases} ]

์—ฌ๊ธฐ์„œ (p\in{1,2})๋Š” ์ง‘๊ณ„ ๋…ธ๋ฆ„, (\kappa>0)๋Š” ์Šค์ผ€์ผ, (V_{\text{fail}})๋Š” ํฐ ์ƒ์ˆ˜์ž…๋‹ˆ๋‹ค.

4.2 ์„ ํ˜ธ ์Œ ๊ตฌ์„ฑ

๊ฐ ์‹œ๋‚˜๋ฆฌ์˜ค (x)์— ๋Œ€ํ•ด (\pi_{\text{SFT}}) ๋กœ๋ถ€ํ„ฐ (N)๊ฐœ์˜ ํ›„๋ณด๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ๋ฌธ๋ฒ•ยท์˜ˆ์‚ฐ ์œ„๋ฐ˜์„ ์ œ๊ฑฐํ•œ ๋’ค AC ์ „์•• ํŽ˜๋„ํ‹ฐ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ์ „์•• ํŽ˜๋„ํ‹ฐ๊ฐ€ ๋‚ฎ์€ ํ›„๋ณด๋ฅผ (y^{+}), ๋†’์€ ํ›„๋ณด๋ฅผ (y^{-}) ๋กœ ์ง€์ •ํ•ด ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค.

4.3 DPO ์†์‹ค

์ •์ฑ… (\p$i_\$phi) (์ดˆ๊ธฐ๊ฐ’ (\pi_{\text{SFT}}))์™€ ๊ธฐ์ค€ ์ •์ฑ… (\pi_{\text{ref}}=\pi_{\text{SFT}})์— ๋Œ€ํ•ด ๋‹ค์Œ์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

[ \Delt$a_\$phi(x,y^{+},y^{-}) = \log \frac{\p$i_\$phi(y^{+}\mid x)}{\p$i_\$phi(y^{-}\mid x)},\qquad \Delta_{\text{ref}}(x,y^{+},y^{-}) = \log \frac{\pi_{\text{ref}}(y^{+}\mid x)}{\pi_{\text{ref}}(y^{-}\mid x)}. ]

DPO ์†์‹ค์€

[ \mathcal{L}{\text{DPO}}(\phi)= -\sum{(x,y^{+},y^{-})}\log\sigma\bigl(\beta_{\text{DPO}}(\Delt$a_\$phi - \Delta_{\text{ref}})\bigr) ]

์ด๋ฉฐ, (\beta_{\text{DPO}}>0)๋Š” ์„ ํ˜ธ ๊ฐ•๋„๋ฅผ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค[13]. ์ตœ์ ํ™” ํ›„ ์–ป์€ (\pi_{\text{DPO}})๋Š” ์ „์•• ์œ„๋ฐ˜์„ ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ™•๋ฅ ์„ ์žฌ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

4.4 ์‹ค์šฉ์„ฑ

์„ ํ˜ธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์€ ์˜คํ”„๋ผ์ธ์—์„œ AC ์ „๋ ฅ ํ๋ฆ„์„ ์‚ฌ์šฉํ•ด ๋ผ๋ฒจ๋งํ•˜๋ฏ€๋กœ ๋น„์šฉ์ด ๋“ค์ง€๋งŒ, ์ถ”๋ก  ์‹œ์—๋Š” ๋‹จ์ผ ์ƒท ํ˜น์€ Bestโ€‘ofโ€‘N ์žฌ์ •๋ ฌ ๋ฐฉ์‹์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ›„์ž๋Š” ํ›„๋ณด๋“ค์„ ์—ฌ๋Ÿฌ ๊ฐœ ์ƒ์„ฑํ•œ ๋’ค ์ „์•• ํŽ˜๋„ํ‹ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ตœ์  ํ›„๋ณด๋ฅผ ์„ ํƒํ•˜๋Š” ์ ˆ์ฐจ์ด๋ฉฐ, AC ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ์— ํŠนํžˆ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.


5. Bestโ€‘ofโ€‘N ์ถ”๋ก 

SFTยทDPO ํ›„์—๋„ ๋‹จ์ผ ์ƒ˜ํ”Œ๋ง๋งŒ์œผ๋กœ๋Š” ์„œ๋ธŒ์˜ตํ‹ฐ๋ฉ€ํ•˜๊ฑฐ๋‚˜ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜๊ฐ€ ์žˆ๋Š” ๊ณ„ํš์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ Bestโ€‘ofโ€‘N ๋ฐฉ์‹์„ ๋„์ž…ํ•ด ์—ฌ๋Ÿฌ ํ›„๋ณด๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ž‘์—… ๋ฉ”ํŠธ๋ฆญ์— ๋”ฐ๋ผ ์ตœ์  ํ›„๋ณด๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ตฌ์กฐํ™”๋œ ์˜ˆ์ธกยท์ถ”๋ก  ์ž‘์—…์—์„œ ์ƒ˜ํ”Œ๋ง ๋‹ค์–‘์„ฑ์„ ํ™œ์šฉํ•ด ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ผ๋ฐ˜์ ์ธ ๊ธฐ๋ฒ•์ด๋ฉฐ, ์ ๋‹นํ•œ (N) (์˜ˆ: 5โ€‘10) ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ํšจ๊ณผ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค[19].

์ ˆ์ฐจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ์ •์ฑ… (\pi) (์˜ˆ: (\pi_{\text{SFT}}) ํ˜น์€ (\pi_{\text{DPO}})) ๋กœ๋ถ€ํ„ฐ (N)๊ฐœ์˜ ๋…๋ฆฝ ํ›„๋ณด (y_1,\dots,y_N) ๋ฅผ ์ƒ์„ฑ.
  2. ๊ฐ ํ›„๋ณด์— ๋Œ€ํ•ด ๋ฌธ๋ฒ• ํŒŒ์‹ฑ โ†’ PSPS/์˜ˆ์‚ฐ ์ œ์•ฝ ๊ฒ€์ฆ โ†’ DC ํƒ€๋‹น์„ฑ ํ‰๊ฐ€ โ†’ (์„ ํƒ์ ) AC ์ „์•• ํ‰๊ฐ€ ๋ฅผ ์ˆ˜ํ–‰.
  3. ๊ฒ€์ฆ์„ ํ†ต๊ณผํ•œ ํ›„๋ณด ์ง‘ํ•ฉ์„ (\mathcal{Y}_{\text{valid}}(x)) ๋กœ ์ •์˜. ๋น„์–ด ์žˆ์œผ๋ฉด ์•ˆ์ „ํ•œ ๊ธฐ๋ณธ ๋™์ž‘(์˜ˆ: ์•„๋ฌด ๋™์ž‘๋„ ํ•˜์ง€ ์•Š์Œ)์œผ๋กœ ๋Œ€์ฒด.
  4. ๋‹ค์Œ ์Šค์นผ๋ผ ์ ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํ›„๋ณด๋ฅผ ์„ ํƒ:

[ \text{Score}(x,y)= \begin{cases} J_{\text{DC}}(x,y), & \text{๊ฒฝ์ œ์„ฑ๋งŒ ๊ณ ๋ ค} \ V_{\text{pen}}(y), & \text{์ „์•• ํ’ˆ์งˆ๋งŒ ๊ณ ๋ ค} \ J_{\text{DC}}(x,y)+\lambda V_{\text{pen}}(y), & \text{๋‘ ๋ชฉํ‘œ ๋ชจ๋‘ ๊ณ ๋ ค} \end{cases} ]

(\lambda\ge0)๋Š” ์šด์˜ ์šฐ์„ ์ˆœ์œ„์— ๋”ฐ๋ผ ์กฐ์ •๋ฉ๋‹ˆ๋‹ค. (N)์— ๋น„๋ก€ํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฆ๊ฐ€ํ•˜์ง€๋งŒ, ์ƒ˜ํ”Œ๋ง์€ ์™„์ „ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ ์‹ค์‹œ๊ฐ„ ์ œ์•ฝ์— ๋งž๊ฒŒ (N)์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„์šฉยท์‹œ๊ฐ„ ๋ถ„์„์€ Sectionโ€ฏIV์—์„œ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


6. ์‹คํ—˜ ์„ค์ •

6.1 ํ…Œ์ŠคํŠธ ์‹œ์Šคํ…œ

IEEEโ€ฏ118โ€‘bus ์‹œ์Šคํ…œ(MATโ€‘POWER[20])์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค (($n_b$=118, $n_\$ell=186, $n_g$=54)). ์ง€๋ฆฌ์ ์œผ๋กœ ์ธ์ ‘ํ•œ ๋ผ์ธ๋“ค์„ 9๊ฐœ์˜ ์ „์†ก ํšŒ๋ž‘ (S) ๋กœ ๋ฌถ์–ด ์ฝ”๋ฆฌ๋„ ๊ตฌ์กฐ๋ฅผ ์ •์˜ํ–ˆ์œผ๋ฉฐ, ๊ฐ ํšŒ๋ž‘๋‹น 8โ€‘20๊ฐœ์˜ ๋ผ์ธ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. PSPS ์ด๋ฒคํŠธ๋Š” ํšŒ๋ž‘๋ณ„ ๋ผ์ธ์„ ๋ฌด์ž‘์œ„๋กœ ์ฐจ๋‹จํ•ด ๊ฐ€์šฉ์„ฑ ๋งˆ์Šคํฌ (\xi) ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์„ค์ •์—์„œ๋Š” ์šด์˜์ž๊ฐ€ ์ถ”๊ฐ€๋กœ ์—ด ์ˆ˜ ์žˆ๋Š” ๋ผ์ธ ์ˆ˜๋ฅผ ($K_\$ell=3) ์œผ๋กœ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค.

6.2 ๋ฐ์ดํ„ฐ

  • SFT ๋ฐ์ดํ„ฐ: 200๊ฐœ์˜ PSPS ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ•™์Šต/ํ…Œ์ŠคํŠธ๋กœ 8:2 ๋น„์œจ๋กœ ๋ถ„ํ• .
  • DPO ์„ ํ˜ธ ๋ฐ์ดํ„ฐ: (\pi_{\text{SFT}}) ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋งํ•œ ํ›„๋ณด๋“ค์„ AC ์ „์•• ํŽ˜๋„ํ‹ฐ ๊ธฐ์ค€์œผ๋กœ ์ˆœ์œ„ ๋งค๊ฒจ 440๊ฐœ์˜ ((x, y^{+}, y^{-})) ์Œ์„ ๊ตฌ์„ฑ.
  • ์ฝ”๋“œยท๋ฐ์ดํ„ฐ: ๋ชจ๋‘ GitHub( MFHChehade/LLM-Grid-Actions )์— ๊ณต๊ฐœ.

6.3 ๊ตฌํ˜„ยท๋ชจ๋ธ

  • ์ „๋ ฅ ํ๋ฆ„ยท์ตœ์ ํ™”: MATLABโ€ฏR2024b + YALMIP[21].
  • LLM: OpenAIโ€ฏfineโ€‘tuning API๋ฅผ ์ด์šฉํ•ด ft:gptโ€‘4.1โ€‘miniโ€‘2025โ€‘04โ€‘14 ๋ฅผ ๋ฏธ์„ธ์กฐ์ •.
    • SFT: 3 epoch, ๋ฐฐ์น˜ 1, LR multiplier 2, ์ด 453,384 ํ† ํฐ ํ•™์Šต.
    • DPO: 2 epoch, ๋ฐฐ์น˜ 8, (\beta_{\text{DPO}}=0.1), ์ด 1,611,736 ํ† ํฐ ํ•™์Šต.
  • ์ „์•• ํŽ˜๋„ํ‹ฐ ํŒŒ๋ผ๋ฏธํ„ฐ: (v_{\text{db}}=0), (p=1), (\kappa=1).
  • ๋น„๊ต ๋Œ€์ƒ: (i) zeroโ€‘shot ๋ฒ ์ด์Šค LLM, (ii) (\pi_{\text{SFT}}), (iii) (\pi_{\text{DPO}}), (iv) ์‹ ๊ฒฝ๋ง ๋ฒ ์ด์Šค๋ผ์ธ(512โ€‘๋…ธ๋“œ 1โ€‘hiddenโ€‘layer MLP, ๋™์ผ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ).

6.4 ํ•™์Šต ๊ณก์„ 

Figureโ€ฏ2(aโ€‘b)๋Š” SFT ๊ณผ์ •์—์„œ ๋กœ๊ทธ ์†์‹ค์ด ์ดˆ๊ธฐ ๊ธ‰๊ฐ ํ›„ ์™„๋งŒํžˆ ๊ฐ์†Œํ•˜๊ณ , ํ† ํฐ ์ •ํ™•๋„๊ฐ€ ๋น ๋ฅด๊ฒŒ ์ƒ์Šนํ•ด ์•ˆ์ •ํ™”๋˜๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋จผ์ € ๋ฌธ๋ฒ•์„ ํ•™์Šตํ•˜๊ณ , ์ดํ›„ ์‹œ๋‚˜๋ฆฌ์˜คโ€‘๋™์ž‘ ๋งคํ•‘์„ ์ •๊ตํ™”ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Figureโ€ฏ2(cโ€‘d)๋Š” DPO ๋‹จ๊ณ„์—์„œ ์†์‹ค๊ณผ ์„ ํ˜ธ ์˜ค๋ฅ˜์œจ์ด ์ง€์†์ ์œผ๋กœ ๊ฐ์†Œํ•ด, ์„ ํ˜ธ์™€ ๋น„์„ ํ˜ธ ๊ณ„ํš์„ ์„ฑ๊ณต์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.5 ๊ฒฐ๊ณผ ์š”์•ฝ

  • AC ์ˆ˜๋ ด ์‹คํŒจ์œจ: Zeroโ€‘shot์€ ์ ˆ๋ฐ˜ ์ด์ƒ์—์„œ AC ํ๋ฆ„์ด ์ˆ˜๋ ดํ•˜์ง€ ์•Š์ง€๋งŒ, SFT์™€ DPO๋Š” ์ด๋ฅผ ์†Œ์ˆ˜ ์ˆ˜์ค€์œผ๋กœ ๊ฐ์†Œ์‹œ์ผฐ์œผ๋ฉฐ, ์‹ ๊ฒฝ๋ง ๋ฒ ์ด์Šค๋ผ์ธ์ด ๊ฐ€์žฅ ๋‚ฎ์€ ์‹คํŒจ์œจ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ „์•• ํŽ˜๋„ํ‹ฐ: ๊ณตํ†ต ์„ฑ๊ณต ์ง‘ํ•ฉ(๋ชจ๋“  ์ •์ฑ…์ด ACโ€‘feasibleํ•œ ๊ฒฝ์šฐ)์—์„œ DPO๋Š” ์ค‘์œ„์ˆ˜ ์ „์•• ํŽ˜๋„ํ‹ฐ๊ฐ€ SFTยทNN๋ณด๋‹ค ๋‚ฎ์•„, ์„ ํ˜ธ ์ •์ œ๊ฐ€ ์ „์•• ํ’ˆ์งˆ์„ ์‹ค์ œ๋กœ ํ–ฅ์ƒ์‹œ์ผฐ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ƒ์œ„ ๊ผฌ๋ฆฌ(๊ทน๋‹จ์  ์œ„๋ฐ˜)๋Š” ์—ฌ์ „ํžˆ ์กด์žฌํ•ด, ํ–ฅํ›„ ๋” ํ’๋ถ€ํ•œ ์„ ํ˜ธ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฒฝ์ œ์„ฑ: DC ๋ชฉํ‘œ (J_{\text{DC}}) ์ธก๋ฉด์—์„œ SFTยทDPO๋Š” zeroโ€‘shot ๋Œ€๋น„ 30โ€ฏ% ์ด์ƒ์˜ ๋น„์šฉ ์ ˆ๊ฐ ํšจ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, DPO๋Š” ์•ฝ๊ฐ„์˜ ์ถ”๊ฐ€ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ „์ฒด์ ์œผ๋กœ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ, LLM ๊ธฐ๋ฐ˜ ์ „ํ™˜ ์–ด์‹œ์Šคํ„ดํŠธ๊ฐ€ ๊ธฐ์กด ์ „๋ ฅ๋ง ๋ถ„์„ ๋„๊ตฌ์™€ ์›ํ™œํžˆ ์—ฐ๋™๋  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


7. ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

์šฐ๋ฆฌ๋Š” PSPS ์ƒํ™ฉ์—์„œ์˜ ๊ต์ • ๊ฐœ๋ฐฉ ์ „ํ™˜์„ ๋ชฉํ‘œ๋กœ, MILPโ€‘derived DCโ€‘optimal ํ–‰๋™์„ LLM์— ์ฃผ์ž…ํ•˜๊ณ , AC ์ „์•• ์ธ์‹ ์„ ํ˜ธ๋ฅผ ํ†ตํ•ด ์ „์•• ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋‘ ๋‹จ๊ณ„ ์ •๋ ฌ ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ๋… ๋ฏธ์„ธ์กฐ์ •์€ ๊ตฌ์กฐํ™”๋œ ๋ฌธ๋ฒ•๊ณผ ์˜ˆ์‚ฐ ์ œ์•ฝ์„ ๋ชจ๋ธ์— ๋‚ด์žฌ์‹œ์ผœ, ์ถœ๋ ฅ์ด ํŒŒ์‹ฑยท๊ฒ€์ฆ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. DPO ๊ธฐ๋ฐ˜ ์„ ํ˜ธ ์ •์ œ๋Š” AC ์ „์•• ํŽ˜๋„ํ‹ฐ๋ฅผ ์ง์ ‘ ํ•™์Šต ๋ชฉํ‘œ์— ๋ฐ˜์˜ํ•จ์œผ๋กœ์จ, DC ๋ชจ๋ฐฉ๋งŒ์œผ๋กœ๋Š” ์–ป์„ ์ˆ˜ ์—†๋Š” ์ „์•• ์•ˆ์ „์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค. Bestโ€‘ofโ€‘N ์ถ”๋ก ์€ ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์„ ํ†ตํ•ด ํ›„๋ณด ํ’ˆ์งˆ์„ ๋”์šฑ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” IEEEโ€ฏ118โ€‘bus PSPS ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๊ฒฝ์ œ์„ฑยทAC ํƒ€๋‹น์„ฑยท์ „์•• ํ’ˆ์งˆ ๋ชจ๋‘์—์„œ ๊ธฐ์กด zeroโ€‘shot ๋ฐ ์‹ ๊ฒฝ๋ง ๋ฒ ์ด์Šค๋ผ์ธ์„ ๋Šฅ๊ฐ€ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์€ ํ‘œ์ค€ ์ „๋ ฅ ํ๋ฆ„ ๊ฒ€์ฆ๊ณผ ํ˜ธํ™˜๋˜๋ฏ€๋กœ, ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์˜ ์‹ ๋ขฐ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ๋‹ค์ค‘ ์ž‘์—… ํ†ตํ•ฉ: ํ•˜๋‚˜์˜ foundation ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ ์ „๋ ฅ๋ง ์—…๋ฌด(์˜ˆ: ๋ถ€ํ•˜ ์˜ˆ์ธก, ์žฌ์ƒ์—๋„ˆ์ง€ ์Šค์ผ€์ค„๋ง, ๊ณ ์žฅ ์ง„๋‹จ ๋“ฑ)์™€ ์—ฐ๊ณ„ํ•ด ํ†ตํ•ฉ ์˜์‚ฌ๊ฒฐ์ • ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ตฌ์ถ•.
  2. ์„ ํ˜ธ ๋ฐ์ดํ„ฐ ํ™•๋Œ€: ์ „์•• ์™ธ์—๋„ ์ฃผํŒŒ์ˆ˜, ์•ˆ์ •์„ฑ, ๋ณดํ˜ธ๊ณ„์ „ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ์ ยท์šด์˜์ƒ ๋ชฉํ‘œ๋ฅผ ํฌํ•จํ•œ ์„ ํ˜ธ ์Œ์„ ์ˆ˜์ง‘ํ•ด ์ •์ œ ๋‹จ๊ณ„์˜ ํ’๋ถ€ํ•จ์„ ๋†’์ž„.
  3. ์‹ค์‹œ๊ฐ„ ๋ฐฐํฌ: Edgeโ€‘computing ํ™˜๊ฒฝ์—์„œ LLM ์ถ”๋ก ์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•˜๊ณ , ์•ˆ์ „ ๊ฒ€์ฆ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ์ž๋™ํ™”๋œ ๋กค๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒฐํ•ฉํ•ด ํ˜„์žฅ ์ ์šฉ์„ฑ์„ ๊ฒ€์ฆ.
  4. ์ธ๊ฐ„โ€‘์ธยท๋ฃจํ”„(HITL) ์ธํ„ฐํŽ˜์ด์Šค: ์šด์˜์ž๊ฐ€ LLM ์ถœ๋ ฅ์— ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๊ณ , ์ด๋ฅผ ์ฆ‰์‹œ ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ์— ๋ฐ˜์˜ํ•˜๋Š” ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ•™์Šต ๋ฐฉ์‹์„ ํƒ์ƒ‰.

๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•˜๊ณ  ์šด์˜์ž ์นœํ™”์ ์ธ LLM ์–ด์‹œ์Šคํ„ดํŠธ๊ฐ€ ๊ธฐ์กด ์ „๋ ฅ๋ง ๋ถ„์„ ํˆด์„ ๋ณด์™„ยท๊ฐ•ํ™”ํ•˜๋Š” ์ฒซ ๊ฑธ์Œ์ด๋ฉฐ, ํ–ฅํ›„ ์ „๋ ฅ ์‹œ์Šคํ…œ ๋””์ง€ํ„ธ ์ „ํ™˜์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.