Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications

Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications

๐Ÿ“ Abstract

**
์˜๋ฏธ ํ†ต์‹ (SemCom)์€ ์ „ํ†ต์ ์ธ ๋น„ํŠธโ€‘๋ ˆ๋ฒจ ์ „์†ก์—์„œ ๋ฒ—์–ด๋‚˜ ์ž‘์—…โ€‘์ค‘์‹ฌ์˜ ์˜๋ฏธ ์ „๋‹ฌ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ŠคํŽ™ํŠธ๋Ÿผยท์—๋„ˆ์ง€ ํšจ์œจ๊ณผ ์ง€์—ฐ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด SemCom ์‹œ์Šคํ…œ์€ ํ•™์Šต๋œ ์˜๋ฏธ ๋ชจ๋ธ์„ ๊ณ ์ •๋œ ์ƒํƒœ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฌด์„  ํ™˜๊ฒฝ ๋ณ€ํ™”, ์‚ฌ์šฉ์ž ์„ ํ˜ธ๋„ ๋ณ€๋™, ํ˜น์€ ์„œ๋น„์Šค ๋ชฉํ‘œ์˜ ๋™์  ๋ณ€ํ™”๋ฅผ ์ ์ ˆํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์‹œ๊ฐ„โ€‘์ œํ•œ ์ธ๊ฐ„โ€‘์ธโ€‘๋ฃจํ”„ ๊ฐ•ํ™”ํ•™์Šต(TCโ€‘HITLโ€‘RL) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ, ์˜๋ฏธ ํšจ์šฉ, ๊ทธ๋ฆฌ๊ณ  ์ง€์—ฐ ์ œ์•ฝ์„ ํ•˜๋‚˜์˜ ์ œ์•ฝ ๋งˆ์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(CMDP) ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ , ํ”„๋ผ์ž„โ€‘๋“€์–ผ ๊ทผ์ ‘ ์ •์ฑ… ์ตœ์ ํ™”(PPO) ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์•ก์…˜ ์‹ค๋“œ(action shielding) ์™€ ์ง€์—ฐโ€‘์ธ์‹ ๋ณด์ƒ shaping ์„ ๊ฒฐํ•ฉํ•œ๋‹ค. ์ œ์•ˆ๋œ ์ •์ฑ…์€ ๊ธฐ์กด PPO ์ˆ˜์ค€์˜ ์˜๋ฏธ ๋ณด์ƒ์„ ์œ ์ง€ํ•˜๋ฉด์„œ, ๊ณต์ค‘ ์ธํ„ฐํŽ˜์ด์Šค์™€ Nearโ€‘RT RIC(์‹ค์‹œ๊ฐ„ ๋ผ๋””์˜ค ์ธํ„ฐํŽ˜์ด์Šค ์ปจํŠธ๋กค๋Ÿฌ)์˜ ์ฒ˜๋ฆฌ ์˜ˆ์‚ฐ ๋ณ€๋™์„ฑ์„ ํฌ๊ฒŒ ๊ฐ์†Œ์‹œํ‚จ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์€ ํฌ์ธํŠธโ€‘ํˆฌโ€‘๋ฉ€ํ‹ฐํฌ์ธํŠธ ์ „์†ก ํ™˜๊ฒฝ์—์„œ ์ด์งˆ์ ์ธ ์‚ฌ์šฉ์ž ๋งˆ๊ฐ์‹œ๊ฐ„์„ ๊ณ ๋ คํ–ˆ์„ ๋•Œ, TCโ€‘HITLโ€‘RL์ด ๋ชจ๋“  ์‚ฌ์šฉ์ž์˜ ์‹œ๊ฐ„ ์ œ์•ฝ์„ ์ผ๊ด€๋˜๊ฒŒ ๋งŒ์กฑํ•˜๊ณ , ๋ฒ ์ด์Šค๋ผ์ธ ์Šค์ผ€์ค„๋Ÿฌ ๋Œ€๋น„ ์˜๋ฏธ ๋ณด์ƒ๊ณผ ์ž์› ์†Œ๋น„ ์•ˆ์ •์„ฑ ๋ชจ๋‘์—์„œ ์šฐ์ˆ˜ํ•จ์„ ํ™•์ธํ•œ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

  • SemCom์˜ ํ•ต์‹ฌ ๊ฐ€์น˜: ์˜๋ฏธ ์ˆ˜์ค€์—์„œ ์ •๋ณด๋ฅผ ์••์ถ•ยท์ „์†กํ•จ์œผ๋กœ์จ ์ „์†ก๋Ÿ‰์„ ์ตœ์†Œํ™”ํ•˜๊ณ , ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ JSCC๊ฐ€ ์ฑ„๋„ ๋ณ€๋™์— ๊ฐ•์ธํ•จ์„ ๋ณด์ธ๋‹ค.
  • ์ •์  ๋ชจ๋ธ์˜ ํ•œ๊ณ„: ๋ฌด์„  ์ฑ„๋„, ์‚ฌ์šฉ์ž ์š”๊ตฌ, ์„œ๋น„์Šค ๋ชฉํ‘œ๊ฐ€ ์‹œ์‹œ๊ฐ๊ฐ ๋ณ€ํ•˜๋Š” 5G/6G ํ™˜๊ฒฝ์—์„œ๋Š” ๊ณ ์ •๋œ ์˜๋ฏธ ๋ชจ๋ธ์ด ์˜๋ฏธ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜์ง€ ๋ชปํ•œ๋‹ค.
  • ์ธ๊ฐ„โ€‘ํ”ผ๋“œ๋ฐฑ์˜ ํ•„์š”์„ฑ: RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ฐ•ํ™”ํ•™์Šต)์™€ ๊ฐ™์€ ์ตœ์‹  AI ํŠธ๋ Œ๋“œ๊ฐ€ ๋ณด์—ฌ์ฃผ๋“ฏ, ์ธ๊ฐ„ ์ฃผ๊ด€์  ์„ ํ˜ธ๋ฅผ ์ง์ ‘ ๋ณด์ƒ์— ๋ฐ˜์˜ํ•˜๋ฉด ์˜๋ฏธ ๋ชจ๋ธ์„ ์‹ค์ œ QoE์— ๋งž๊ฒŒ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์‹œ๊ฐ„ ์ œ์•ฝ์˜ ์ค‘์š”์„ฑ: ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ์ž์ฒด๊ฐ€ ์ง€์—ฐ์— ๋ฏผ๊ฐํ•˜๊ณ , ์˜๋ฏธ ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๊ฐ€ ์‹ค์‹œ๊ฐ„ ์„œ๋น„์Šค(์˜ˆ: AR/VR, ์ž์œจ์ฃผํ–‰)์—์„œ ํ—ˆ์šฉ ๊ฐ€๋Šฅํ•œ ์ง€์—ฐ ํ•œ๊ณ„๋ฅผ ์ดˆ๊ณผํ•˜๋ฉด ์˜คํžˆ๋ ค ์„œ๋น„์Šค ํ’ˆ์งˆ์„ ์ €ํ•˜์‹œํ‚จ๋‹ค.

2. ํ•ต์‹ฌ ๊ธฐ์—ฌ

๋ฒˆํ˜ธ ๊ธฐ์—ฌ ๋‚ด์šฉ ์˜์˜
โ‘  ์ง€์—ฐโ€‘์ธ์‹ CMDP: ์˜๋ฏธ ํšจ์šฉ, ์ธ๊ฐ„ ์„ ํ˜ธ, RIC ์ฒ˜๋ฆฌ ๋Œ€๊ธฐ์‹œ๊ฐ„, ์‚ฌ์šฉ์ž ๋งˆ๊ฐ์‹œ๊ฐ„์„ ์ƒํƒœยท์ œ์•ฝ์œผ๋กœ ํ†ตํ•ฉ ์˜๋ฏธ ์ ์‘์„ ์‹ค์‹œ๊ฐ„ ๋„คํŠธ์›Œํฌ ์ œ์•ฝ๊ณผ ๋™์‹œ์— ์ตœ์ ํ™”ํ•˜๋Š” ์ˆ˜ํ•™์  ํ‹€ ์ œ๊ณต
โ‘ก TCโ€‘PPO with Shielding: ํ”„๋ผ์ž„โ€‘๋“€์–ผ PPO์— ๋น„์šฉ ํฌ๋ฆฌํ‹ฑยท๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜ยท์•ก์…˜ ์‹ค๋“œ ๋„์ž… ํ‰๊ท ยท์ฆ‰์‹œ(ํ”„๋ ˆ์ž„ ๋‹จ์œ„) ์ œ์•ฝ์„ ๋™์‹œ์— ๋งŒ์กฑ, ํ•™์Šต ์•ˆ์ •์„ฑยท์•ˆ์ „์„ฑ ๊ฐ•ํ™”
โ‘ข Open RAN ๊ตฌํ˜„ ์„ค๊ณ„: NRโ€‘like ์Šฌ๋กฏยท๋ฏธ๋‹ˆโ€‘์Šฌ๋กฏ ๊ตฌ์กฐ์— ๋งคํ•‘, Nearโ€‘RT RIC์— HITLโ€‘RL ์—์ด์ „ํŠธ ๋ฐฐ์น˜ ์‹ค์ œ 5G/6G Open RAN ์Šคํƒ์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ฒญ์‚ฌ์ง„ ์ œ์‹œ
โ‘ฃ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒ€์ฆ: ์ด์งˆ์  ๋งˆ๊ฐ์‹œ๊ฐ„ยท๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž ์ˆ˜(N=8,16) ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ง€์—ฐยท๋ณด์ƒยท์ž์› ์†Œ๋น„ 3๊ฐ€์ง€ ์ธก๋ฉด ๋ชจ๋‘ ์šฐ์ˆ˜ ์‹ค์šฉ์  ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ž…์ฆ, ๊ธฐ์กด ์Šค์ผ€์ค„๋Ÿฌ ๋Œ€๋น„ ๋ช…ํ™•ํ•œ ์ด์  ํ™•์ธ

3. ๋ฐฉ๋ฒ•๋ก  ์ƒ์„ธ

  1. ์ƒํƒœ ์ •์˜

    • ์˜๋ฏธ ํ’ˆ์งˆ $q_i$,t, ์ธ๊ฐ„ ์ •๋ ฌ ํšจ์šฉ ลช_i,t, ๋‚จ์€ ์Šฌ๋ž™ slac$k_i$,t, ๋งˆ๊ฐ ๋ถ€์ฑ„ ฮด_i,t, ์ฑ„๋„ ํ–‰๋ ฌ $H_i$,t, ๊ฐ€์šฉ ๋ฏธ๋‹ˆโ€‘์Šฌ๋กฏ $T_a$vail,t.
    • ๋‹ค์ฐจ์› ์ƒํƒœ๊ฐ€ ์˜๋ฏธยท์ฑ„๋„ยท์ง€์—ฐ์„ ๋™์‹œ์— ํฌ์ฐฉ, CMDP์˜ ๋งˆ์ฝ”ํ”„์„ฑ ์œ ์ง€.
  2. ์•ก์…˜ ๊ตฌ์„ฑ

    • ์›์‹œ ์ ์‘ ํ”„๋ฆฌ๋ฏธํ‹ฐ๋ธŒ U = {LIGHTADAPT, FEATREFINE, FULLRETRAIN, DEPLOY_CACHED, NOOP}์™€ ์‚ฌ์šฉ์ž ์Šค์ผ€์ค„๋ง ๋งˆ์Šคํฌ $b_i$,t.
    • ์•ก์…˜ ์‹ค๋“œ: ํ›„๋ณด ์•ก์…˜์ด ์ฆ‰์‹œ ์ง€์—ฐยท์ž์› ์ œ์•ฝ์„ ์œ„๋ฐ˜ํ•˜๋ฉด, ๋” ๊ฐ€๋ฒผ์šด ํ”„๋ฆฌ๋ฏธํ‹ฐ๋ธŒ ํ˜น์€ NOOP์œผ๋กœ ์ž๋™ ๋‹ค์šด๊ทธ๋ ˆ์ด๋“œ.
  3. ๋ณด์ƒยท์ œ์•ฝ ์„ค๊ณ„

    • ๋ณด์ƒ: ์˜๋ฏธ ๊ฐœ์„  ฮ”ลช_i,t์™€ ์—ฐ์‚ฐ ๋น„์šฉ ฯ‡($u_t$) ์‚ฌ์ด์˜ ๊ฐ€์ค‘ํ•ฉ, ์„œ๋น„์Šค ์šฐ์„ ์ˆœ์œ„ $w_i$ ํฌํ•จ.
    • ์ œ์•ฝโ‘ : ํ‰๊ท  RIC ์ฒ˜๋ฆฌ ์‹œ๊ฐ„ โ‰ค d(1) (์˜ˆ์‚ฐ).
    • ์ œ์•ฝโ‘ก: ํ‰๊ท  ๋งˆ๊ฐ ์ดˆ๊ณผ 0 (๋˜๋Š” ํ—ˆ์šฉ ์˜ค์ฐจ d(2)).
  4. ํ”„๋ผ์ž„โ€‘๋“€์–ผ PPO

    • ํด๋ฆฌํ•‘๋œ ์„œ๋Ÿฌ๊ฒŒ์ดํŠธ ์†์‹ค์— ๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜ ฮป_j ๋ฅผ ๊ณฑํ•œ ๋น„์šฉ ํ•ญ์„ ์ถ”๊ฐ€.
    • ๋น„์šฉ ํฌ๋ฆฌํ‹ฑ $V_c$^{(j)} ๋กœ ๋น„์šฉ๊ฐ’์„ ์ถ”์ •, GAE ๊ธฐ๋ฐ˜ ์–ด๋“œ๋ฐดํ‹ฐ์ง€ ๊ณ„์‚ฐ.
    • ๋งค ์—…๋ฐ์ดํŠธ ํ›„ `ฮป_j โ†

๐Ÿ“„ Full Content

**์‹œ๋งจํ‹ฑ ํ†ต์‹ (SemCom)**์€ ์„ค๊ณ„ ์ดˆ์ ์„ ๋น„ํŠธโ€‘๋ ˆ๋ฒจ ์ถฉ์‹ค๋„์—์„œ ์ž‘์—…โ€‘๋˜๋Š” ์˜๋ฏธโ€‘๋ ˆ๋ฒจ ํšจ์šฉ์œผ๋กœ ์ „ํ™˜ํ•˜์—ฌ, ์ž‘์—…์— ๊ด€๋ จ๋œ ์ •๋ณด๋งŒ์„ ์ „์†กํ•˜๊ณ  ๋ฌผ๋ฆฌ, ๋งํฌ, ์ถ”๋ก  ๊ณ„์ธต์„ ๊ณต๋™ ์„ค๊ณ„ํ•จ์œผ๋กœ์จ ์ŠคํŽ™ํŠธ๋Ÿผยท์—๋„ˆ์ง€ ํšจ์œจ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์ง€์—ฐ์„ ๊ฐ์†Œ์‹œํ‚จ๋‹ค[1]โ€‘[3]. ํŠนํžˆ, ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ SemCom ์‹œ์Šคํ…œ์€ ๊ณต๋™ ์†Œ์Šคโ€‘์ฑ„๋„ ์ฝ”๋”ฉ(JSCC)[4],[5]์„ ํ†ตํ•ด ๊ตฌํ˜„๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฉฐ, ์ฑ„๋„ ์†์ƒ์— ๋Œ€ํ•œ ๊ฐ•์ธ์„ฑ์„ ๋ณด์ด๊ณ  ์„ฑ๋Šฅ ์ด๋“์„ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด ์„ค๊ณ„ ๋Œ€๋ถ€๋ถ„์€ ์˜๋ฏธ ๋ชจ๋ธ์„ ํ•œ ๋ฒˆ ํ•™์Šตํ•˜๋ฉด ์ •์ ์ธ ๊ฒƒ์œผ๋กœ ์ทจ๊ธ‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ฌด์„  ํ™˜๊ฒฝ, ์‚ฌ์šฉ์ž ์„ ํ˜ธ, ํ˜น์€ ์ž‘์—… ๋ชฉํ‘œ๊ฐ€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•  ๋•Œ ๋ชจ๋ธ ์ •๋ ฌ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค. ์„œ๋น„์Šค ๊ด€์ ์—์„œ ๋ณด๋ฉด, ์˜๋ฏธ ์ถฉ์‹ค๋„๋ฅผ ์‚ฌ์šฉ์ž ์˜๋„์™€ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ์ปจํ…์ŠคํŠธ์— ๋งž์ถ”๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ ์‘ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํ•„์ˆ˜์ ์ด๋‹ค.

์ตœ๊ทผ ์ƒ์„ฑํ˜• AI์™€ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™”ํ•™์Šต(RLHF)[6]์˜ ๊ธ‰์†ํ•œ ๋ฐœ์ „์€ ์ธ๊ฐ„ ์„ ํ˜ธ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๊ฐ€์น˜๊ฐ€ ํฌ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•œ๋‹ค. **Humanโ€‘inโ€‘theโ€‘Loop Reinforcement Learning(HITLโ€‘RL)**์€ ์ฃผ๊ด€์  ํ”ผ๋“œ๋ฐฑ์„ ๋ณด์ƒ ์„ค๊ณ„์™€ ์ •์ฑ… ์—…๋ฐ์ดํŠธ์— ๋ฐ˜์˜ํ•œ๋‹ค[7]. ์ด๋Š” ๋กœ๋ด‡๊ณตํ•™, ์„ ํ˜ธ ํ•™์Šต, ์ œ์–ด ๊ฐ€๋Šฅํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋“ฑ์— ์„ฑ๊ณต์ ์œผ๋กœ ์ ์šฉ๋˜์—ˆ์œผ๋ฉฐ, ์ตœ๊ทผ์—๋Š” SemCom์—์„œ๋„ ์‚ฌ์šฉ์žโ€‘์ธ์‹ ํšจ์šฉ์— ๋ชจ๋ธ์„ ์ •๋ ฌ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํ™œ์šฉ์ด ์ œ์•ˆ๋˜๊ณ  ์žˆ๋‹ค[8],[9]. ํ•˜์ง€๋งŒ HITLโ€‘RL์„ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ SemCom ๋ฃจํ”„์— ๋„์ž…ํ•˜๋ฉด ๋„๋ฉ”์ธ ํŠน์œ ์˜ ๋‚œ๊ด€์ด ๋ฐœ์ƒํ•œ๋‹ค.

๋ฌด์„  ์‹œ์Šคํ…œ์—์„œ๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ์ž์ฒด๊ฐ€ ๋Œ€์—ญํญยท์ง€์—ฐ ์ œํ•œ์ด ์žˆ๋Š” ๋งํฌ๋ฅผ ํ†ตํ•ด ์ „๋‹ฌ๋˜๋ฉฐ, ์˜๋ฏธ ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๋Š” ์—„๊ฒฉํ•œ ํƒ€์ด๋ฐ ์ œ์•ฝ์„ ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค. ์ด๊ธฐ์ข… ์‚ฌ์šฉ์ž๋“ค์ด ์กด์žฌํ•˜๋Š” ์ โ€‘๋Œ€โ€‘๋‹ค์ค‘์ (pointโ€‘toโ€‘multipoint) ๋ฐฐ์น˜์—์„œ๋Š” ํ”ผ๋“œ๋ฐฑ ์ง€์—ฐ๊ณผ ์žฌ๊ตฌ์„ฑ ์ง€์—ฐ์ด ์ผ๋ถ€ ์‚ฌ์šฉ์ž์—๊ฒŒ๋Š” ์—…๋ฐ์ดํŠธ๋ฅผ ์‹คํ˜„ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๊ฐ„์  ํšจ๊ณผ๋ฅผ ๋ฌด์‹œํ•˜๋ฉด ์‚ฌ์šฉ์ž๋ณ„ ๋งˆ๊ฐ์‹œ๊ฐ„ ์œ„๋ฐ˜์ด ๋ฐœ์ƒํ•˜๊ณ  **QoE(ํ’ˆ์งˆ ๊ฒฝํ—˜)**๊ฐ€ ์ €ํ•˜๋œ๋‹ค. ๋”ฐ๋ผ์„œ ์‹œ๊ฐ„ ์ธ์‹ ์˜์‚ฌ๊ฒฐ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์˜๋ฏธ ํšจ์šฉ๊ณผ ์Šค์ผ€์ค„๋งยท๋ฐฐํฌ ํ˜„์‹ค์„ ๊ฒฐํ•ฉํ•ด์•ผ ํ•œ๋‹ค. ๋™์‹œ์— ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ์˜ ์„ธ๋ถ„ํ™”(์˜ˆ: ๋ถ€๋ถ„ ๊ฐฑ์‹  vs. ์ „์ฒด ์žฌํ•™์Šต)๋ฅผ ์‹ ์ค‘ํžˆ ์„ ํƒํ•ด ์˜๋ฏธ ํ–ฅ์ƒ๊ณผ ์ง€์—ฐ ์˜ค๋ฒ„ํ—ค๋“œ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถฐ์•ผ ํ•œ๋‹ค.

์ œ์•ฝ ๋งˆ์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(CMDP)[10]์€ ๋ผ๊ทธ๋ž‘์ฃผ ๋˜๋Š” ํ”„๋ผ์ž„โ€‘๋“€์–ผ ๋ฐฉ์‹[11]์„ ํ†ตํ•ด ์ง€์—ฐยท์•ˆ์ „ ์˜ˆ์‚ฐ์„ ์›์น™์ ์œผ๋กœ ๊ฐ•์ œํ•  ์ˆ˜ ์žˆ๋‹ค. Proximal Policy Optimization(PPO)[12]๋Š” ์•ˆ์ •์„ฑ๊ณผ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋›ฐ์–ด๋‚˜๋ฉฐ, ๋น„์šฉ ๋น„ํ‰๊ฐ€์™€ ๋“€์–ผ ๋ณ€์ˆ˜๋ฅผ ๋„์ž…ํ•ด ์ œ์•ฝ PPO(PPOโ€‘C) ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋‹ค. ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ RL ๊ธฐ๋ฒ•์„ RIC ์ตœ์ ํ™”์— ์ ์šฉํ–ˆ์ง€๋งŒ[13],[14], ๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ์ธ๊ฐ„ ์„ ํ˜ธ ์‹ ํ˜ธ๋‚˜ ํ”„๋ ˆ์ž„โ€‘๋‹จ์œ„ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํฌํ•จํ•˜์ง€ ์•Š์•˜๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์‹œ๊ฐ„โ€‘์ œํ•œ HITLโ€‘RL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ โ€‘๋Œ€โ€‘๋‹ค์ค‘์  ํ™˜๊ฒฝ์—์„œ ์˜๋ฏธ ์ ์‘์„ ์‚ฌ์šฉ์ž๋ณ„ ๋งˆ๊ฐ ์˜ˆ์‚ฐ๊ณผ ์ง€์—ฐ ์ธ์‹ ๋ณด์ƒ ํ˜•ํƒœ์˜ CMDP๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ , ํ”„๋ผ์ž„โ€‘๋“€์–ผ PPO์— **์•ก์…˜ ์‹ค๋“œ(action shield)**๋ฅผ ๊ฒฐํ•ฉํ•ด ํ•™์Šตยท๋ฐฐํฌ ์‹œ ์ฆ‰์‹œ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์žฅํ•œ๋‹ค. ์ด๋Š” ์‹ค์‹œ๊ฐ„ ์ œ์•ฝ์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ ๋ คํ•œ ์ตœ์ดˆ์˜ HITLโ€‘RLยทSemCom ํ†ตํ•ฉ ์‚ฌ๋ก€ ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ, ์„ ํ˜ธ ๊ธฐ๋ฐ˜ ํ•™์Šต๊ณผ ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•œ ํƒ€์ด๋ฐ ์ œ์–ด๋ฅผ ์—ฐ๊ฒฐํ•œ๋‹ค. ์ฃผ์š” ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์ง€์—ฐ ์ธ์‹ CMDP: ์ธ๊ฐ„โ€‘์ •๋ ฌ ์˜๋ฏธ ํšจ์šฉ์„ Nearโ€‘RT RIC ์˜ˆ์‚ฐ ๋ฐ ์‚ฌ์šฉ์ž๋ณ„ ๋งˆ๊ฐ๊ณผ ๊ฒฐํ•ฉํ•ด, ์ง€์—ฐ ๋ณด์žฅ์„ ์ „์ œ๋กœ ํ•œ ์˜๋ฏธ ๋ธŒ๋กœ๋“œ์บ์ŠคํŒ…์„ ์œ„ํ•œ ์‹ค์šฉ์ ์ธ CMDP ์ถ”์ƒํ™”๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  • TCโ€‘PPO with Shielding: ๋น„์šฉ ๋น„ํ‰๊ฐ€, ์ ์‘ํ˜• ๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜, ์•ก์…˜ ์‹ค๋“œ๋ฅผ ํฌํ•จํ•œ ํ”„๋ผ์ž„โ€‘๋“€์–ผ PPO ๋ณ€ํ˜•์„ ์ œ์•ˆํ•ด ํ‰๊ท ยท์ฆ‰์‹œ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ๋™์‹œ์— ๋งŒ์กฑํ•œ๋‹ค.
  • ๊ตฌํ˜„ ๋ฐ ์‹ค์ฆ: NRโ€‘์œ ์‚ฌ ์Šฌ๋กฏ ๊ตฌ์กฐ์— ๋งคํ•‘ํ•˜๊ณ , JSCCโ€‘๊ธฐ๋ฐ˜ ์ „์†ก์„ ํ†ตํ•ด ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

1. ์‹œ์Šคํ…œ ๋ชจ๋ธ

์šฐ๋ฆฌ๋Š” AIโ€‘๊ตฌ๋™ ์ฐจ์„ธ๋Œ€ RAN์„ ๊ฐ€์ •ํ•œ๋‹ค. ์˜๋ฏธโ€‘์ธ์‹ gNB๊ฐ€ ์ง€์—ฐ ์ด์งˆ์„ฑ์„ ๊ฐ€์ง„ UE ์ง‘ํ•ฉ (\mathcal{N}={1,\dots,N})์— ๊ณต์œ  ๋‹ค์šด๋งํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋ฆผโ€ฏ1๊ณผ ๊ฐ™์ด Openโ€ฏRAN ๊ธฐ๋Šฅ ๋ถ„ํ• [2],[15]์„ ๋”ฐ๋ฅด๋ฉฐ, Nearโ€‘RT RIC์— HITLโ€‘RL ์—์ด์ „ํŠธ๊ฐ€ ์ƒ์ฃผํ•˜๊ณ , Distributed Unit(DU)ยทRadio Unit(RU)์ด ๋ฌผ๋ฆฌ ๊ณ„์ธต ์—ฐ๊ฒฐ์„ ๋‹ด๋‹นํ•œ๋‹ค. ์˜๋ฏธ ๋ชจ๋ธ์€ ์ธ์ฝ”๋”โ€‘๋””์ฝ”๋” ์Œ์œผ๋กœ ๋™์ž‘ํ•˜๊ณ , ์ธ์ฝ”๋”๋Š” gNB์—, ๋””์ฝ”๋”๋Š” ๊ฐ UE์— ๋ฐฐ์น˜๋œ๋‹ค. ์ธ๊ฐ„ ์šด์˜์ž๋Š” ๋ณต์›๋œ ์˜๋ฏธ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ํ”ผ๋“œ๋ฐฑ์„ RIC์— ์ „์†กํ•œ๋‹ค. RIC๋Š” ์ด๋ฅผ ์œตํ•ฉยท๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•˜๊ณ , ์—„๊ฒฉํ•œ ํƒ€์ด๋ฐ ์˜ˆ์‚ฐ ํ•˜์— ๊ตฌ์„ฑ ๋ณ€๊ฒฝ์„ ์ „ํŒŒํ•œ๋‹ค.

์ œ์–ด ๋ฃจํ”„๋Š” ํ”„๋ ˆ์ž„ ์ธ๋ฑ์Šค (t\in{0,1,\dots}) ๋กœ ์ด์‚ฐํ™”๋˜๋ฉฐ, ๊ฐ ํ”„๋ ˆ์ž„์€ ์Šฌ๋กฏ ํ• ๋‹น(NR ๋ฏธ๋‹ˆโ€‘์Šฌ๋กฏ์— ํ•ด๋‹น)์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์˜๋ฏธ ์ ์‘์— ๋™์ ์œผ๋กœ ํ• ๋‹น๋œ๋‹ค. ๊ฐ UE (i)๋Š” ์„œ๋น„์Šค ํด๋ž˜์Šค (k(i))์— ์†ํ•˜๊ณ , ๋งˆ๊ฐ ($d_i$)๋Š” ์˜๋ฏธ ์ €ํ•˜๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ๋””์ฝ”๋”๋ฅผ ์žฌ๋ฐฐํฌํ•˜๊ธฐ๊นŒ์ง€ ํ—ˆ์šฉ๋˜๋Š” ์ตœ๋Œ€ ์‹œ๊ฐ„์ด๋‹ค.

ํ”„๋ ˆ์ž„ (t)์—์„œ gNB๋Š” ์†Œ์Šค ํŠน์ง• (\mathbf{x}_t\in\mathbb{R}^{$n_s$})์™€ ๊ณผ๊ฑฐ ์ปจํ…์ŠคํŠธ (\mathbf{m}_t)๋ฅผ ์ž…๋ ฅ๋ฐ›๋Š”๋‹ค. ์ธ์ฝ”๋” ํŒŒ๋ผ๋ฏธํ„ฐ (\ph$i_t$)๋Š” ์ž ์žฌ ์ž„๋ฒ ๋”ฉ (\mathbf{z}_t)๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ๋ณต์†Œ์ˆ˜ ์‹ฌ๋ณผ ๋ธ”๋ก (\mathbf{s}_t=E(\mathbf{z}_t)\in\mathbb{C}^{$n_c$}) ๋กœ ๋งคํ•‘ํ•œ๋‹ค. ์ „์†ก ์ „ ํŒŒ์›Œ ์ œ์•ฝ (|\mathbf{s}_t|2^2\le $n_c$P{\max}) ๋ฅผ ๋งŒ์กฑํ•œ๋‹ค. RU๋Š” ๋ธ”๋กโ€‘ํŽ˜์ด๋”ฉ MIMO ์ฑ„๋„์„ ํ†ตํ•ด (\mathbf{s}_t) ๋ฅผ ์ „์†กํ•œ๋‹ค.

[ \mathbf{y}{i,t}= \mathbf{H}{i,t}\mathbf{s}t + \mathbf{n}{i,t},\qquad \mathbf{n}_{i,t}\sim\mathcal{CN}(\mathbf{0},\sigm$a_i$^2\mathbf{I}) ]

๊ฐ UE๋Š” ๊ฐœ์ธํ™” ๋””์ฝ”๋” (\psi_{i,t}) ์™€ ๋กœ์ปฌ ์‚ฌ์ด๋“œ ์ •๋ณด (\mathbf{c}_{i,t}) (์˜ˆ: ์„œ๋น„์Šค ์ปจํ…์ŠคํŠธ, ์„ผ์„œ ์Šค๋ƒ…์ƒท)๋ฅผ ์ด์šฉํ•ด ๋ณต์›ํ•œ๋‹ค.

[ \hat{\mathbf{x}}{i,t}= g{\psi_{i,t}}(\mathbf{y}{i,t},\mathbf{c}{i,t}) ]

๋ณต์› ํ’ˆ์งˆ์€ ์ž‘์—… ์†์‹ค (\el$l_i$(\hat{\mathbf{x}}_{i,t},\mathbf{x}t)) ๋กœ ์ธก์ •๋˜๋ฉฐ, ๋ณด์กฐ์ ์ธ ํ’ˆ์งˆ ์ ์ˆ˜ (q{i,t}=1-\el$l_i$(\cdot)) ๋กœ ํ‘œํ˜„๋œ๋‹ค. ์ด ์ ์ˆ˜๋Š” Nearโ€‘RT RIC ์œผ๋กœ ๋ณด๊ณ ๋œ๋‹ค.

UEโ€‘์ธก ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋Š” ์Šค์นผ๋ผ ํ˜น์€ ๋ฒกํ„ฐ ํ”ผ๋“œ๋ฐฑ (\mathbf{F}_{i,t}) ๋ฅผ uplink ์ œ์–ดยท๋ฐ์ดํ„ฐ ๋ฒ ์–ด๋Ÿฌ๋ฅผ ํ†ตํ•ด ์ „์†กํ•œ๋‹ค. ์‚ฌ์šฉ๋œ PHY ์ฑ„๋„์€ ๊ตฌํ˜„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฏ€๋กœ ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ถ”์ƒํ™”ํ•œ๋‹ค. ํ•ต์‹ฌ์€ Nearโ€‘RT RIC ๊ฐ€ ํ”ผ๋“œ๋ฐฑ์„ ์ˆ˜์ง‘ยท์ง‘๊ณ„ยทํ™œ์šฉ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. Openโ€ฏRAN ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ SMOยทNearโ€‘RT RIC ๋ชจ๋“ˆ์€ ํ”ผ๋“œ๋ฐฑ์„ ์ •๊ทœํ™”๋œ ์„ ํ˜ธ ์ ์ˆ˜ (\tilde{U}_i) ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

[ \tilde{U}i = \et$a_i$,$U_i$(\mathbf{p}{i,t}) + (1-\et$a_i$),H_{\text{pref}}(\mathbf{F}_{i,t}),\qquad \et$a_i$\in[0,1] ]

์—ฌ๊ธฐ์„œ ($U_i$) ๋Š” ๊ฐ๊ด€์  KPI(์˜ˆ: ํƒ์ง€ ์ •ํ™•๋„) ๋ฅผ, (H_{\text{pref}}) ๋Š” ์ฃผ๊ด€์  ๋งŒ์กฑ๋„๋ฅผ ์ธ์ฝ”๋”ฉํ•œ๋‹ค. Nearโ€‘RT RIC ๋Š” ์ง€์ˆ˜ ๊ฐ€์ค‘ ์ด๋™ ํ‰๊ท ์„ ์œ ์ง€ํ•œ๋‹ค.

[ \bar{U}{i,t+1}= (1-\alph$a_i$)\bar{U}{i,t} + \alph$a_i$\tilde{U}_{i,t},\qquad \alph$a_i$\in(0,1] ]

(\bar{U}_{i,t}) ๋Š” RL ์ƒํƒœ์˜ ์ผ๋ถ€๊ฐ€ ๋˜๋ฉฐ ์žฅ๊ธฐ ์˜๋ฏธ ์ •๋ ฌ์„ ๋ณด์กฐํ•œ๋‹ค.

2. ์ ์‘ ์•ก์…˜ ๋ฐ ์ง€์—ฐ ๋ชจ๋ธ

์—์ด์ „ํŠธ๋Š” ์ ์‘ ์•ก์…˜ ($a_t$\in\mathcal{U}) ๋ฅผ ์„ ํƒํ•œ๋‹ค. ์•ก์…˜ ์ข…๋ฅ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์•ก์…˜ ์„ค๋ช…
LIGHTADAPT ๋””์ฝ”๋” ํ†ต๊ณ„ ํ˜น์€ ์–ด๋Œ‘ํ„ฐ๋ฅผ ์ตœ์†Œํ•œ์œผ๋กœ ๊ฐฑ์‹  (์ง€์—ฐ ์ตœ์†Œ)
FEATREFINE ์ค‘๊ฐ„ ๊ทœ๋ชจ ํŒŒ์ธโ€‘ํŠœ๋‹ (์˜ˆ: LoRA ๋ ˆ์ด์–ด)
FULLRETRAIN ์ „์ฒด ์ง€์‹ ๊ธฐ๋ฐ˜ ์—…๋ฐ์ดํŠธ (๊ณ ๋น„์šฉ)
DEPLOYโ€‘CACHED ์บ์‹œ๋œ ์•ˆ์ • ๋ชจ๋ธ์„ ๋กค๋ฐฑยท์žฌ๋ฐฐํฌ
NOOP ์•„๋ฌด ๋ณ€ํ™”๋„ ์—†์Œ

์•ก์…˜ ์ˆ˜ํ–‰ ์‹œ ์ „์ฒด ์ง€์—ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ชจ๋ธ๋งํ•œ๋‹ค.

[ C^{\text{total}}{i,t}= C^{\text{fb}}{i,t}+ C^{\text{RIC}}{i,t}+ C^{\text{tx}}{i,t}+ C^{\text{reconf}}_{i,t} ]

  • (C^{\text{fb}}_{i,t}): ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํš๋“ ๋ฐ uplink ์ „์†ก ์ง€์—ฐ
  • (C^{\text{RIC}}_{i,t}): Nearโ€‘RT RIC ๋‚ด ๋ถ„์„ยท๊ฒฐ์ •(ํ์ž‰ ํฌํ•จ) ์ง€์—ฐ
  • (C^{\text{tx}}_{i,t}): ํ”„๋ก ํŠธโ€‘ํ™€/๋ฐฑํ™€์„ ํ†ตํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ „ํŒŒ ์ง€์—ฐ
  • (C^{\text{reconf}}_{i,t}): UEโ€‘์ธก ๋””์ฝ”๋” ๋ฐฐํฌยท์›Œ๋ฐโ€‘์Šคํƒ€ํŠธ ์ง€์—ฐ

๊ฐ ์„œ๋น„์Šค ํด๋ž˜์Šค (k\in\mathcal{K}) ์—๋Š” 3GPP 5QI ๊ธฐ์ค€์— ๋งž์ถ˜ ์˜ˆ์‚ฐ (B^{\text{RIC}}k) ์™€ ๋งˆ๊ฐ ($d_i$) ๊ฐ€ ํ• ๋‹น๋œ๋‹ค. RIC ์€ ํ˜„์žฌ ์ž”์—ฌ ์—ฌ์œ  (\Delta^{\text{RIC}}{t}) ์™€ ์ •๊ทœํ™”๋œ ๋งˆ๊ฐ ๋ถ€์ฑ„ (\delta_{i,t}= \bigl[ -\Delta_{i,t}\bigr]^+/$d_i$) ๋ฅผ ์—์ด์ „ํŠธ์— ์ œ๊ณตํ•œ๋‹ค.

3. ์‹œ๊ฐ„โ€‘์ œํ•œ CMDP ์ •์˜

CMDP (M=(\mathcal{S},\mathcal{A},P,r,c,\gamma)) ์˜ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์ƒํƒœ (\mathcal{S}): ํ”„๋ ˆ์ž„ ์‹œ์ž‘ ์‹œ Nearโ€‘RT RIC ์ด ๊ด€์ฐฐํ•˜๋Š” ๋ฒกํ„ฐ

[ $s_t$ = \bigl[,\mathbf{q}_t,;\bar{\mathbf{U}}_t,;\Delta^{\text{RIC}}_t,;\boldsymbol{\delta}_t,;\mathbf{H}_t,;T^{\text{avail}}_t,\bigr] ]

  • (\mathbf{q}t=[q{1,t},\dots,q_{N,t}]^\top): UE ๋ณ„ ์ฆ‰์‹œ ์˜๋ฏธ ํ’ˆ์งˆ

  • (\bar{\mathbf{U}}t=[\bar{U}{1,t},\dots,\bar{U}_{N,t}]^\top): ์ธ๊ฐ„ ์ •๋ ฌ ํšจ์šฉ ์ถ”์ •์น˜

  • (\Delta^{\text{RIC}}_t): RIC ์ฒ˜๋ฆฌ ์˜ˆ์‚ฐ ์ž”์—ฌ๋Ÿ‰

  • (\boldsymbol{\delta}_t): UE ๋ณ„ ์ •๊ทœํ™” ๋งˆ๊ฐ ๋ถ€์ฑ„

  • (\mathbf{H}_t): ํ˜„์žฌ ์ฑ„๋„ ํ–‰๋ ฌ ์ง‘ํ•ฉ

  • (T^{\text{avail}}_t): ์˜๋ฏธ ์Šฌ๋ผ์ด์Šค์— ํ• ๋‹น๋œ ๋ฏธ๋‹ˆโ€‘์Šฌ๋กฏ ์˜ˆ์‚ฐ

  • ์•ก์…˜ (\mathcal{A}): ๋ณตํ•ฉ ์•ก์…˜ ($a_t$=($u_t$,\mathbf{b}_t)) ๋กœ ๊ตฌ์„ฑ

    • ($u_t$\in\mathcal{U}) : ์œ„ ํ‘œ์— ์ •์˜๋œ ์ ์‘ ์›์‹œ(primitives)
    • (\mathbf{b}t=[b{1,t},\dots,b_{N,t}]^\top\in{0,1}^N) : ํ•ด๋‹น ํ”„๋ ˆ์ž„์— ์ ์‘์„ ์ˆ˜ํ–‰ํ•  UE ์„ ํƒ

    ์‹คํ˜„ ๊ฐ€๋Šฅ ์˜์—ญ

[ \mathcal{A}^{\text{feas}}($s_t$)=\Bigl{(u,\mathbf{b});\big|; C^{\text{RIC}}_t(\mathbf{b})\le \Delta^{\text{RIC}}t,; \forall i:; $b_i$=1\Rightarrow C^{\text{total}}{i,t}(u)\le $d_i$\Bigr} ]

  • ์ „์ด ์ปค๋„ (P): (s_{t+1}\sim P(\cdot|$s_t$,$a_t$)) ์€ (i) JSCC ์žฌ๊ตฌ์„ฑ, (ii) ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ์œตํ•ฉ, (iii) ์ง€์—ฐ ๋ถ„ํ•ด๋ฅผ ํฌํ•จํ•œ๋‹ค.

  • ๋ณด์ƒ (r): ์˜๋ฏธ ํ–ฅ์ƒ๊ณผ ์—ฐ์‚ฐ ๋น„์šฉ์„ ๊ท ํ˜• ์žˆ๊ฒŒ ๋ฐ˜์˜

[ $r_t$ = \sum_{i=1}^{N} $w_i$\Bigl[,\bar{U}{i,t+1} - \beta{\delta},\delta_{i,t+1}\Bigr] - \chi($u_t$),\beta_{u} ]

  • ($w_i$): ์„œ๋น„์Šค ์šฐ์„ ์ˆœ์œ„ ๊ฐ€์ค‘์น˜

  • (\chi($u_t$)): ์„ ํƒ๋œ ์›์‹œ์˜ ์—ฐ์‚ฐ ๋น„์šฉ (์˜ˆ: FLOPs)

  • (\beta_{\delta},\beta_{u}\ge0): ์˜๋ฏธ ์ด๋“ vs. ๋งˆ๊ฐ ์ŠคํŠธ๋ ˆ์Šค ํŠธ๋ ˆ์ด๋“œโ€‘์˜คํ”„ ํŒŒ๋ผ๋ฏธํ„ฐ

  • ์ œ์•ฝ ๋น„์šฉ (c): ๋‘ ๊ฐœ์˜ ํ‰๊ท  ์ œ์•ฝ

    1. RIC ์ฒ˜๋ฆฌ ์˜ˆ์‚ฐ

    [ c^{(1)}_t = C^{\text{RIC}}_t(\mathbf{b}_t) ]

    1. ๋งˆ๊ฐ ์ดˆ๊ณผ

    [ c^{(2)}t = \sum{i=1}^{N} \bigl[\delta_{i,t}\bigr]^+ ]

  • ํ• ์ธ์œจ (\gamma\in(0,1))

4. ํ”„๋ผ์ž„โ€‘๋“€์–ผ PPO with Shield (TCโ€‘PPO)

์ •์ฑ… (\pi_{\theta}(a|s)) ์™€ ํ• ์ธ์œจ (\gamma) ๋ฅผ ๊ฐ–๋Š” ์ •์ƒ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•œ๋‹ค. ๋ชฉํ‘œ๋Š”

[ \max_{\pi_{\theta}} ; \mathbb{E}\Bigl[\sum_{t=0}^{\infty}\gamma^{t} $r_t$\Bigr] \quad\text{s.t.}\quad \mathbb{E}[c^{(j)}]\le d^{(j)},; j=1,2 ]

์—ฌ๊ธฐ์„œ (d^{(1)} = \mathbb{E}[T^{\text{avail}}_t]) (RIC ํ‰๊ท  ์˜ˆ์‚ฐ)์ด๋ฉฐ, (d^{(2)}=0) ์€ ํ‰๊ท  ๋งˆ๊ฐ ์œ„๋ฐ˜์„ ๊ธˆ์ง€ํ•œ๋‹ค(ํ—ˆ์šฉ ์œ„๋ฐ˜ ํ™•๋ฅ ์„ ํ—ˆ์šฉํ•˜๋ ค๋ฉด (d^{(2)}>0) ๋กœ ์„ค์ • ๊ฐ€๋Šฅ).

4.1 ๋ผ๊ทธ๋ž‘์ฃผ ๋“€์–ผํ™”

๋‘ ์ œ์•ฝ์— ๋Œ€ํ•œ ๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜ (\lambda=[\lambda_1,\lambda_2]^\top\ge0) ๋ฅผ ๋„์ž…ํ•œ๋‹ค.

[ \mathcal{L}(\theta,\lambda)=\mathbb{E}\Bigl[\sum_{t}\gamma^{t}\bigl($r_t$ - \lambda^\top $c_t$\bigr)\Bigr] + \lambda^\top d ]

4.2 PPO ์„œํ”„๋ผ์ด์ฆˆ์™€ ํด๋ฆฌํ•‘

ํด๋ฆฌํ•‘ ๋น„์œจ (\epsilon) ์™€ ์ค‘์š”๋„ ๋น„์œจ (\rh$o_t$ = \frac{\pi_{\theta}($a_t$|$s_t$)}{\pi_{\theta_{\text{old}}}($a_t$|$s_t$)}) ๋ฅผ ์‚ฌ์šฉํ•ด ํด๋ฆฌํ•‘ ์„œํ”„๋ผ์ด์ฆˆ๋ฅผ ์ •์˜ํ•œ๋‹ค.

[ L^{\text{CLIP}}_t(\theta)=\min\Bigl(\rh$o_t$ \hat{A}_t,; \text{clip}(\rh$o_t$,1-\epsilon,1+\epsilon)\hat{A}_t\Bigr) ]

์—ฌ๊ธฐ์„œ (\hat{A}_t) ๋Š” Generalized Advantage Estimate (GAE) ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.

4.3 ๋น„์šฉ ๋น„ํ‰๊ฐ€์™€ ๋“€์–ผ ์—…๋ฐ์ดํŠธ

๊ฐ ์ œ์•ฝ (j) ์— ๋Œ€ํ•ด ๋น„์šฉ ๋น„ํ‰๊ฐ€ (V^{c}_{j,\n$u_j$}(s)) ๋ฅผ ํ•™์Šตํ•œ๋‹ค. ๋น„์šฉ ์–ด๋“œ๋ฐดํ‹ฐ์ง€๋Š” ๋™์ผํ•œ GAE ๋ฐฉ์‹์„ ์ ์šฉํ•œ๋‹ค. ๋“€์–ผ ๋ณ€์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ฒฝ์‚ฌ ์ƒ์Šนํ•œ๋‹ค.

[ \lambd$a_j$ \leftarrow \bigl[\lambd$a_j$ + \alpha_{\lambda}\bigl(\hat{c}^{(j)}t - d^{(j)}\bigr)\bigr]+ ]

(\alpha_{\lambda}) ๋Š” ํ•™์Šต๋ฅ ์ด๋ฉฐ, ์ง€์ˆ˜ ์ด๋™ ํ‰๊ท (EMA) ๋กœ ์žก์Œ์ด ์™„ํ™”๋œ๋‹ค.

4.4 ์•ก์…˜ ์‹ค๋“œ (Shield)

ํ‰๊ท  ์ œ์•ฝ๋งŒ์œผ๋กœ๋Š” ํ”„๋ ˆ์ž„โ€‘๋‹จ์œ„ ์•ˆ์ „์„ ๋ณด์žฅํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ, ์•ก์…˜ ์‹ค๋“œ๋ฅผ ๋„์ž…ํ•œ๋‹ค. ํ›„๋ณด ์ •์ฑ… (\pi_{\theta}) ๊ฐ€ ์ถœ๋ ฅํ•œ ((u,\mathbf{b})) ๋ฅผ ์‹คํ˜„ ๊ฐ€๋Šฅ ์ง‘ํ•ฉ (\mathcal{A}^{\text{feas}}($s_t$)) ๋กœ ํˆฌ์‚ฌํ•œ๋‹ค.

  1. ์›์‹œ (u) ๊ฐ€ ํ˜„์žฌ ์ž”์—ฌ ์˜ˆ์‚ฐ์„ ์ดˆ๊ณผํ•˜๋ฉด ๊ฐ€๋ฒผ์šด ์›์‹œ(LIGHTADAPT โ†’ FEATREFINE โ†’ FULLRETRAIN ์ˆœ) ๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ๋‹ค์šด๊ทธ๋ ˆ์ด๋“œํ•œ๋‹ค.
  2. ์›์‹œ๊ฐ€ ๊ณ ์ •๋œ ๊ฒฝ์šฐ, ์Šค์ผ€์ค„๋ง ๋งˆ์Šคํฌ (\mathbf{b}) ๋ฅผ ๊ทธ๋ฆฌ๋””ํ•˜๊ฒŒ ์ž”์—ฌ ์Šฌ๋ž™ (\Delta^{\text{RIC}}t) ์™€ ๊ฐ UE ๋งˆ๊ฐ ๋ถ€์ฑ„ (\delta{i,t}) ๋ฅผ ๊ณ ๋ คํ•ด ์ฐจ๊ฐํ•œ๋‹ค.
  3. ์–ด๋А ๊ฒฝ์šฐ์—๋„ ์‹คํ˜„ ๊ฐ€๋Šฅ ์กฐํ•ฉ์ด ์—†์œผ๋ฉด NOOP ๋กœ ๊ฐ•์ œํ•œ๋‹ค.

์ด ์‹ค๋“œ๋Š” ํ•™์Šต ๋‹จ๊ณ„์™€ ์‹ค์ œ ๋ฐฐํฌ ๋ชจ๋‘์—์„œ ์ ์šฉ๋˜๋ฉฐ, ํ”„๋ ˆ์ž„๋‹น ์‹ค์‹œ๊ฐ„ ์•ˆ์ „์„ฑ์„ ๋ณด์žฅํ•œ๋‹ค.

4.5 ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์š”์•ฝ (Algorithmโ€ฏ1)

  1. ํ˜„์žฌ ์ •์ฑ… (\pi_{\theta}) ์™€ ์‹ค๋“œ (\mathcal{A}^{\text{feas}}) ๋กœ Lโ€‘ํ”„๋ ˆ์ž„ ๋กค์•„์›ƒ์„ ์ˆ˜์ง‘ํ•œ๋‹ค.
  2. ์ˆ˜์ง‘๋œ ํŠธ๋žœ์ง€์…˜์œผ๋กœ ๋ณด์ƒยท๋น„์šฉ ์–ด๋“œ๋ฐดํ‹ฐ์ง€์™€ ๋ฆฌํ„ด์„ ๊ณ„์‚ฐํ•œ๋‹ค.
  3. ๋ณด์ƒยท๋น„์šฉ ๋น„ํ‰๊ฐ€๋ฅผ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์œผ๋กœ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
  4. ํด๋ฆฌํ•‘ ์„œํ”„๋ผ์ด์ฆˆ์™€ ๋“€์–ผ ์†์‹ค์„ ์ด์šฉํ•ด ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ (\theta) ๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
  5. ๋“€์–ผ ๋ณ€์ˆ˜ (\lambda) ๋ฅผ ๊ฒฝ์‚ฌ ์ƒ์Šน ํ›„ EMA ๋กœ ํ‰ํ™œํ•œ๋‹ค.
  6. ์ง€์—ฐ ์˜ˆ์ธก๊ธฐ๋ฅผ ์ตœ์‹  ๊ด€์ธก์น˜๋กœ ๊ฐฑ์‹ ํ•œ๋‹ค.
  7. ์œ„ ๊ณผ์ •์„ ์ง€์ •๋œ ์—ํฌํฌ ์ˆ˜๋งŒํผ ๋ฐ˜๋ณตํ•˜๊ณ , ์ตœ์ข… ์ •์ฑ…์„ ์˜จ๋ผ์ธ ์‹ค๋“œ์™€ ํ•จ๊ป˜ ๋ฐฐํฌํ•œ๋‹ค.

5. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ํ‰๊ฐ€

5.1 ์‹คํ—˜ ์„ค์ •

  • ์‹œ๋‚˜๋ฆฌ์˜ค: ๋‹จ์ผ ์˜๋ฏธโ€‘์ธ์‹ gNB ๊ฐ€ (N\in{8,16}) UE ๋ฅผ ์„œ๋น„์Šคํ•œ๋‹ค. UE๋งˆ๋‹ค ์ด์งˆ์ ์ธ ๋งˆ๊ฐ ($d_i$) ์™€ ๋ฐฑ๋กœ๊ทธ๊ฐ€ ์กด์žฌํ•œ๋‹ค.
  • ์ˆ˜์น˜: ๊ฐ 10โ€ฏms ํ”„๋ ˆ์ž„์€ ์ˆ˜์น˜ (\mu\in{0,1,2}) ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•ด ์Šฌ๋กฏยท์‹ฌ๋ณผ ๊ธธ์ด๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ๋ฏธ๋‹ˆโ€‘์Šฌ๋กฏ ํ• ๋‹น (n^{\text{sym}}_{t}\in{2,4,7}) ๋กœ ๋™์  ์ œ๊ณตํ•œ๋‹ค.
  • ํŒŒ๋ผ๋ฏธํ„ฐ: ๋ผ๋””์˜คยท์ง€์—ฐยทํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” Tableโ€ฏI ์— ์ •๋ฆฌํ–ˆ์œผ๋ฉฐ, ์ฝ”๋“œ์™€ ์„ค์ • ํŒŒ์ผ์€ ๊ณต๊ฐœ ์ €์žฅ์†Œ์— ํ•จ๊ป˜ ์ œ๊ณตํ•œ๋‹ค.

5.2 ๋น„๊ต ๋Œ€์ƒ

  1. Unconstrained PPO: ๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜๋ฅผ ๋น„ํ™œ์„ฑํ™”ํ•œ PPO.
  2. Discreteโ€‘action DQN: ์Šฌ๋ž™ยท๋ฐฑ๋กœ๊ทธ ํ†ต๊ณ„ ๊ธฐ๋ฐ˜์œผ๋กœ ์›์‹œโ€‘๋งˆ์Šคํฌ ํ…œํ”Œ๋ฆฟ์„ ์„ ํƒํ•˜๋Š” DQN ์Šค์ผ€์ค„๋Ÿฌ.
  3. Random Feasible Scheduler: ๊ฐ€๋Šฅํ•œ ์•ก์…˜ ์ค‘ ๋ฌด์ž‘์œ„ ์„ ํƒ (์‹ค๋“œ ์ ์šฉ).

DQN ์€ ์ตœ์†Œ ์„œ๋น„์Šค ์ˆ˜์ค€์„ ์œ ์ง€ํ•˜๋„๋ก ์–ธ๋”โ€‘์œ ํ‹ธ๋ฆฌ์ œ์ด์…˜ ํŒจ๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•ด, ๋ชจ๋“  ์—์ด์ „ํŠธ๊ฐ€ ๋น„์Šทํ•œ ์ตœ์†Œ QoS ๋ฅผ ์ œ๊ณตํ•˜๋„๋ก ๋ณด์žฅํ•œ๋‹ค.

5.3 ํ•™์Šต ์ˆ˜๋ ด (Fig.โ€ฏ2)

  • (N=8)ยท(N=16) ์— ๋Œ€ํ•ด 5๊ฐœ์˜ ์‹œ๋“œ ํ‰๊ท  ๋ณด์ƒ์ด ํ‘œ์‹œ๋œ๋‹ค.
  • Unconstrained PPO์™€ TCโ€‘PPO ๋ชจ๋‘ ์•ฝ 200โ€ฏiteration ๋‚ด์— ์ˆ˜๋ ดํ•˜๋ฉฐ, ๊ฐ€์žฅ ๋†’์€ ์˜๋ฏธ ํšจ์šฉ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.
  • DQN ์€ ์‚ฌ์ „ ์ •์˜๋œ ํ…œํ”Œ๋ฆฟ๋งŒ ์„ ํƒํ•˜๋ฏ€๋กœ PPO ๊ณ„์—ด๋ณด๋‹ค ๋‚ฎ์€ ๋ณด์ƒ์„ ๊ธฐ๋กํ•œ๋‹ค.
  • Random ์€ ์ „๋ฐ˜์ ์œผ๋กœ ๋‚ฎ์€ ๋ณด์ƒ์„ ๋ณด์ธ๋‹ค.

5.4 ์ž์› ์‚ฌ์šฉ (Fig.โ€ฏ3)

  • Airโ€‘interface overhead ((C^{\text{fb}}+C^{\text{tx}})) ์™€ RIC ์ฒ˜๋ฆฌ ์‹œ๊ฐ„ (C^{\text{RIC}}) ๋ฅผ ํ‘œ์‹œํ•œ๋‹ค.
  • (N=8) ์ผ ๋•Œ PPO/TCโ€‘PPO ๋Š” ์Šฌ๋ž™์ด ํ—ˆ์šฉ๋  ๊ฒฝ์šฐ FULLRETRAIN ๊ณผ LIGHTADAPT ์„ ๋ฒˆ๊ฐˆ์•„ ์‚ฌ์šฉํ•ด ๋†’์€ ๋ณด์ƒ์„ ์–ป์ง€๋งŒ, ์˜ค๋ฒ„ํ—ค๋“œ ๋ณ€๋™์„ฑ์ด ํฌ๋‹ค.
  • (N=16) ์ผ ๋•Œ๋Š” ๋ฌด๊ฑฐ์šด ์—…๋ฐ์ดํŠธ๊ฐ€ ์ง€์†๋˜์–ด ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์•ˆ์ •ํ™”๋œ๋‹ค.
  • DQN ์€ ์ด์šฉ๋ฅ  ํŒจ๋„ํ‹ฐ ๋•Œ๋ฌธ์— PPO ์ˆ˜์ค€์˜ ํ†ต์‹  ์‹œ๊ฐ„์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ ๋ณด์ƒ์€ ๋‚ฎ๋‹ค.
  • TCโ€‘PPO ๋Š” ํ‰๊ท  RIC ์‚ฌ์šฉ๋Ÿ‰์„ PPO ์™€ ๋น„์Šทํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ, ๋ณ€๋™ ํญ์ด ๋” ์ž‘์•„ ์ง€์—ฐ ์ œ์–ด๊ฐ€ ๊ฐ•ํ™”๋œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

5.5 ๋ฐฐํฌ ์•ˆ์ •์„ฑ (Fig.โ€ฏ4)

  • ํ•™์Šต ํ›„ 30โ€ฏepisode ์— ๋Œ€ํ•œ ํ‰๊ท  ๋ณด์ƒยท์˜ค๋ฒ„ํ—ค๋“œยท๋งˆ๊ฐ ์ถฉ์กฑ๋ฅ ์„ ๋ณด๊ณ ํ•œ๋‹ค.
  • TCโ€‘PPO ๋Š” PPO ์™€ ๋™๋“ฑํ•œ ๋ณด์ƒ์„ ์œ ์ง€ํ•˜๋ฉด์„œ, ์˜ค๋ฒ„ํ—ค๋“œ ๋ถ„์‚ฐ์ด ์ž‘๊ณ  ๋ชจ๋“  ์—ํ”ผ์†Œ๋“œ์—์„œ ๋งˆ๊ฐ ์ถฉ์กฑ๋ฅ  = 1 ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.
  • DQN ๊ณผ Random ์€ ๋ณด์ƒ์ด ๋‚ฎ์œผ๋ฉฐ, DQN ์€ ์ตœ์†Œ ์„œ๋น„์Šค ํŒจ๋„ํ‹ฐ ๋•Œ๋ฌธ์— ์ž์› ์‚ฌ์šฉ๋Ÿ‰์ด TCโ€‘PPO ์™€ ๋น„์Šทํ•˜์ง€๋งŒ ํšจ์šฉ์ด ๋–จ์–ด์ง„๋‹ค.

5.6 Ablation Study (Fig.โ€ฏ5)

๋‹ค์Œ ๋„ค ๊ฐ€์ง€ ์š”์†Œ๋ฅผ ๊ฐ๊ฐ ๋น„ํ™œ์„ฑํ™”ํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

์‹คํ—˜ ๋น„ํ™œ์„ฑํ™” ์š”์†Œ ์ฃผ์š” ๋ณ€ํ™”
(i) Safety Shield ํ‰๊ท  ์˜ค๋ฒ„ํ—ค๋“œ ๊ฐ์†Œํ•˜์ง€๋งŒ ๋ณด์ƒ ๊ธ‰๊ฐ (๊ณต๊ฒฉ์ ์ธ ์—…๋ฐ์ดํŠธ๋กœ ๋งˆ๊ฐ ์œ„๋ฐ˜ ๋ฐœ์ƒ)
(ii) Cost Critics (penaltyโ€‘only) ๋ณด์ƒ ์ˆ˜๋ ด์€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ์ž์› ๋ณ€๋™์ด ์ปค์ง
(iii) Dual Multipliers ๊ณ ์ • ์ •์ฑ…์ด ๊ณผ๋„ํ•˜๊ฒŒ ๋ณด์ˆ˜์ ์ด ๋˜์–ด ๋ณด์ƒยท์˜ค๋ฒ„ํ—ค๋“œ ๋ชจ๋‘ ๊ฐ์†Œ
(iv) Shield Fallback Order (Lightโ†’Featโ†’Full) ๊ฒฝ๋Ÿ‰ ์—…๋ฐ์ดํŠธ๋ฅผ ์šฐ์„ ํ•ด ์˜ค๋ฒ„ํ—ค๋“œ ๊ฐ์†Œ, ๋ณด์ƒ์€ ๋‹ค์†Œ ๊ฐ์†Œ

๊ฒฐ๊ณผ๋Š” ํ‰๊ท  ์ œ์•ฝ๊ณผ ์ฆ‰์‹œ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ์ด ์ƒํ˜ธ ๋ณด์™„์ ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค.


6. ๋…ผ์˜ ๋ฐ ๊ฒฐ๋ก 

๋ณธ ์—ฐ๊ตฌ๋Š” ์‹œ๊ฐ„โ€‘์ œํ•œ HITLโ€‘RL ์ด ์˜๋ฏธ ์ ์‘์„ ํ‰๊ท ยทํ”„๋ ˆ์ž„โ€‘๋‹จ์œ„ ์ง€์—ฐ ์ œ์•ฝ์„ ๋™์‹œ์— ๋งŒ์กฑํ•˜๋ฉด์„œ๋„ ๋†’์€ ์˜๋ฏธ ํšจ์šฉ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค. ๋‹ค๋งŒ ๋ช‡ ๊ฐ€์ง€ ๊ฐ€์ •ยท์ œํ•œ์ด ๋‚จ์•„ ์žˆ๋‹ค.

  1. ํ”ผ๋“œ๋ฐฑ ์ „์†ก: ํ˜„์žฌ๋Š” ์‹ ๋ขฐ์„ฑยท์ €์ง€์—ฐ uplink ํ”ผ๋“œ๋ฐฑ์„ ์ „์ œํ–ˆ์œผ๋ฉฐ, ์‹ค์ œ ํ˜ผ์žก ํ™˜๊ฒฝ์—์„œ๋Š” ์šฐ์„ ์ˆœ์œ„ ๋ฒ ์–ด๋Ÿฌ, ๊ฒฝ๋Ÿ‰ ์••์ถ•, ์ง€์—ฐโ€‘์ธ์‹ ๋ฒ„ํผ๋ง์ด ํ•„์š”ํ•˜๋‹ค.
  2. ๋‹จ์ผ ์…€: ๋‹ค์ค‘ ์…€ยทํ˜‘์—… ์—ฃ์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ RIC ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉยท๊ณต์œ  ํ”„๋ก ํŠธโ€‘ํ™€ ์ œํ•œ์„ ๊ณ ๋ คํ•œ ํ™•์žฅ์ด ํ•„์š”ํ•˜๋‹ค.
  3. ํ”ผ๋“œ๋ฐฑ ์ฐจ์›: ํ˜„์žฌ๋Š” ์Šค์นผ๋ผ ์„ ํ˜ธ๋งŒ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ์‹ ๋ขฐ๋„ยท๋‹ค์ค‘ ์ฐจ์› ํ”ผ๋“œ๋ฐฑ์„ ํฌํ•จํ•˜๋ฉด CMDP ์ƒํƒœ๊ฐ€ ๋”์šฑ ํ’๋ถ€ํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” NR ํ…Œ์ŠคํŠธ๋ฒ ๋“œ์—์„œ ํ•˜๋“œ์›จ์–ดโ€‘์ธโ€‘๋ฃจํ”„ ๊ฒ€์ฆ, ๋ฉ€ํ‹ฐโ€‘์…€ ํ˜‘์—… ๋ฐ ๋‹ค์ฐจ์› ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ์‹œ๊ฐ„โ€‘์ œํ•œ HITLโ€‘RL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๊ณ , ์˜๋ฏธ ๋ธŒ๋กœ๋“œ์บ์ŠคํŒ…์„ CMDP ๋กœ ๋ชจ๋ธ๋งํ•œ ๋’ค ํ”„๋ผ์ž„โ€‘๋“€์–ผ PPO + ์•ก์…˜ ์‹ค๋“œ ๋กœ ํ•ด๊ฒฐํ•˜์˜€๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” PPO ์ˆ˜์ค€์˜ ๋ณด์ƒ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ž์› ์‚ฌ์šฉ์˜ ๋ณ€๋™์„ฑ์„ ํฌ๊ฒŒ ๊ฐ์†Œ์‹œ์ผฐ์œผ๋ฉฐ, Ablation ์„ ํ†ตํ•ด ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ์˜ ๊ธฐ์—ฌ๋„๋ฅผ ํ™•์ธํ•˜์˜€๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์›์น™์ ์ธ CMDP ์ œ์–ด๊ฐ€ ๋ฐฐํฌ ๊ฐ€๋Šฅํ•œ, ์ง€์—ฐโ€‘์ธ์‹ ์˜๋ฏธ ํ†ต์‹ ์„ ๊ตฌํ˜„ํ•˜๋Š” ์œ ๋งํ•œ ๊ฒฝ๋กœ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.