Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications

📝 Abstract

**
의미 통신(SemCom)은 전통적인 비트‑레벨 전송에서 벗어나 작업‑중심의 의미 전달을 목표로 하며, 이를 통해 스펙트럼·에너지 효율과 지연을 크게 개선할 수 있다. 그러나 기존 SemCom 시스템은 학습된 의미 모델을 고정된 상태로 사용하기 때문에 무선 환경 변화, 사용자 선호도 변동, 혹은 서비스 목표의 동적 변화를 적절히 반영하지 못한다. 본 논문은 시간‑제한 인간‑인‑루프 강화학습(TC‑HITL‑RL) 프레임워크를 제안한다. 인간 피드백, 의미 효용, 그리고 지연 제약을 하나의 제약 마코프 결정 과정(CMDP) 으로 모델링하고, 프라임‑듀얼 근접 정책 최적화(PPO) 기반 알고리즘에 액션 실드(action shielding) 와 지연‑인식 보상 shaping 을 결합한다. 제안된 정책은 기존 PPO 수준의 의미 보상을 유지하면서, 공중 인터페이스와 Near‑RT RIC(실시간 라디오 인터페이스 컨트롤러)의 처리 예산 변동성을 크게 감소시킨다. 시뮬레이션은 포인트‑투‑멀티포인트 전송 환경에서 이질적인 사용자 마감시간을 고려했을 때, TC‑HITL‑RL이 모든 사용자의 시간 제약을 일관되게 만족하고, 베이스라인 스케줄러 대비 의미 보상과 자원 소비 안정성 모두에서 우수함을 확인한다.

💡 Deep Analysis

1. 연구 배경 및 동기

SemCom의 핵심 가치: 의미 수준에서 정보를 압축·전송함으로써 전송량을 최소화하고, 딥러닝 기반 JSCC가 채널 변동에 강인함을 보인다.
정적 모델의 한계: 무선 채널, 사용자 요구, 서비스 목표가 시시각각 변하는 5G/6G 환경에서는 고정된 의미 모델이 의미 일관성을 유지하지 못한다.
인간‑피드백의 필요성: RLHF(인간 피드백 강화학습)와 같은 최신 AI 트렌드가 보여주듯, 인간 주관적 선호를 직접 보상에 반영하면 의미 모델을 실제 QoE에 맞게 조정할 수 있다.
시간 제약의 중요성: 인간 피드백 자체가 지연에 민감하고, 의미 모델 업데이트가 실시간 서비스(예: AR/VR, 자율주행)에서 허용 가능한 지연 한계를 초과하면 오히려 서비스 품질을 저하시킨다.

2. 핵심 기여

번호	기여 내용	의의
①	지연‑인식 CMDP: 의미 효용, 인간 선호, RIC 처리 대기시간, 사용자 마감시간을 상태·제약으로 통합	의미 적응을 실시간 네트워크 제약과 동시에 최적화하는 수학적 틀 제공
②	TC‑PPO with Shielding: 프라임‑듀얼 PPO에 비용 크리틱·라그랑주 승수·액션 실드 도입	평균·즉시(프레임 단위) 제약을 동시에 만족, 학습 안정성·안전성 강화
③	Open RAN 구현 설계: NR‑like 슬롯·미니‑슬롯 구조에 매핑, Near‑RT RIC에 HITL‑RL 에이전트 배치	실제 5G/6G Open RAN 스택에 적용 가능한 청사진 제시
④	시뮬레이션 검증: 이질적 마감시간·다양한 사용자 수(N=8,16) 시나리오에서 지연·보상·자원 소비 3가지 측면 모두 우수	실용적 성능 향상 입증, 기존 스케줄러 대비 명확한 이점 확인

3. 방법론 상세

상태 정의
- 의미 품질 $q_i$,t, 인간 정렬 효용 Ū_i,t, 남은 슬랙 slac$k_i$,t, 마감 부채 δ_i,t, 채널 행렬 $H_i$,t, 가용 미니‑슬롯 $T_a$vail,t.
- 다차원 상태가 의미·채널·지연을 동시에 포착, CMDP의 마코프성 유지.
액션 구성
- 원시 적응 프리미티브 U = {LIGHTADAPT, FEATREFINE, FULLRETRAIN, DEPLOY_CACHED, NOOP}와 사용자 스케줄링 마스크 $b_i$,t.
- 액션 실드: 후보 액션이 즉시 지연·자원 제약을 위반하면, 더 가벼운 프리미티브 혹은 NOOP으로 자동 다운그레이드.
보상·제약 설계
- 보상: 의미 개선 ΔŪ_i,t와 연산 비용 χ($u_t$) 사이의 가중합, 서비스 우선순위 $w_i$ 포함.
- 제약①: 평균 RIC 처리 시간 ≤ d(1) (예산).
- 제약②: 평균 마감 초과 0 (또는 허용 오차 d(2)).
프라임‑듀얼 PPO
- 클리핑된 서러게이트 손실에 라그랑주 승수 λ_j 를 곱한 비용 항을 추가.
- 비용 크리틱 $V_c$^{(j)} 로 비용값을 추정, GAE 기반 어드밴티지 계산.
- 매 업데이트 후 `λ_j ←

📄 Full Content

**시맨틱 통신(SemCom)**은 설계 초점을 비트‑레벨 충실도에서 작업‑또는 의미‑레벨 효용으로 전환하여, 작업에 관련된 정보만을 전송하고 물리, 링크, 추론 계층을 공동 설계함으로써 스펙트럼·에너지 효율을 향상시키고 지연을 감소시킨다[1]‑[3]. 특히, 딥러닝 기반 SemCom 시스템은 공동 소스‑채널 코딩(JSCC)[4],[5]을 통해 구현되는 경우가 많으며, 채널 손상에 대한 강인성을 보이고 성능 이득을 제공한다. 그러나 기존 설계 대부분은 의미 모델을 한 번 학습하면 정적인 것으로 취급하기 때문에, 무선 환경, 사용자 선호, 혹은 작업 목표가 시간에 따라 변할 때 모델 정렬을 유지하는 데 어려움을 겪는다. 서비스 관점에서 보면, 의미 충실도를 사용자 의도와 애플리케이션 컨텍스트에 맞추기 위해서는 적응 메커니즘이 필수적이다.

최근 생성형 AI와 인간 피드백을 통한 강화학습(RLHF)[6]의 급속한 발전은 인간 선호로부터 직접 학습하는 가치가 크다는 점을 강조한다. **Human‑in‑the‑Loop Reinforcement Learning(HITL‑RL)**은 주관적 피드백을 보상 설계와 정책 업데이트에 반영한다[7]. 이는 로봇공학, 선호 학습, 제어 가능한 텍스트 생성 등에 성공적으로 적용되었으며, 최근에는 SemCom에서도 사용자‑인식 효용에 모델을 정렬시키기 위해 활용이 제안되고 있다[8],[9]. 하지만 HITL‑RL을 네트워크 기반 SemCom 루프에 도입하면 도메인 특유의 난관이 발생한다.

무선 시스템에서는 인간 피드백 자체가 대역폭·지연 제한이 있는 링크를 통해 전달되며, 의미 모델 업데이트는 엄격한 타이밍 제약을 만족해야 한다. 이기종 사용자들이 존재하는 점‑대‑다중점(point‑to‑multipoint) 배치에서는 피드백 지연과 재구성 지연이 일부 사용자에게는 업데이트를 실현 불가능하게 만든다. 이러한 시간적 효과를 무시하면 사용자별 마감시간 위반이 발생하고 **QoE(품질 경험)**가 저하된다. 따라서 시간 인식 의사결정 메커니즘이 의미 효용과 스케줄링·배포 현실을 결합해야 한다. 동시에 모델 업데이트의 세분화(예: 부분 갱신 vs. 전체 재학습)를 신중히 선택해 의미 향상과 지연 오버헤드 사이의 균형을 맞춰야 한다.

제약 마코프 결정 과정(CMDP)[10]은 라그랑주 또는 프라임‑듀얼 방식[11]을 통해 지연·안전 예산을 원칙적으로 강제할 수 있다. Proximal Policy Optimization(PPO)[12]는 안정성과 샘플 효율성이 뛰어나며, 비용 비평가와 듀얼 변수를 도입해 제약 PPO(PPO‑C) 로 확장될 수 있다. 최근 연구는 이러한 RL 기법을 RIC 최적화에 적용했지만[13],[14], 기존 연구는 인간 선호 신호나 프레임‑단위 실현 가능성 메커니즘을 포함하지 않았다.

본 논문에서는 시간‑제한 HITL‑RL 프레임워크를 제시한다. 점‑대‑다중점 환경에서 의미 적응을 사용자별 마감 예산과 지연 인식 보상 형태의 CMDP로 모델링하고, 프라임‑듀얼 PPO에 **액션 실드(action shield)**를 결합해 학습·배포 시 즉시 실현 가능성을 보장한다. 이는 실시간 제약을 명시적으로 고려한 최초의 HITL‑RL·SemCom 통합 사례 중 하나이며, 선호 기반 학습과 구현 가능한 타이밍 제어를 연결한다. 주요 기여는 다음과 같다.

지연 인식 CMDP: 인간‑정렬 의미 효용을 Near‑RT RIC 예산 및 사용자별 마감과 결합해, 지연 보장을 전제로 한 의미 브로드캐스팅을 위한 실용적인 CMDP 추상화를 제공한다.
TC‑PPO with Shielding: 비용 비평가, 적응형 라그랑주 승수, 액션 실드를 포함한 프라임‑듀얼 PPO 변형을 제안해 평균·즉시 실현 가능성을 동시에 만족한다.
구현 및 실증: NR‑유사 슬롯 구조에 매핑하고, JSCC‑기반 전송을 통해 실험을 수행한다.

1. 시스템 모델

우리는 AI‑구동 차세대 RAN을 가정한다. 의미‑인식 gNB가 지연 이질성을 가진 UE 집합 (\mathcal{N}={1,\dots,N})에 공유 다운링크를 제공한다. 그림 1과 같이 Open RAN 기능 분할[2],[15]을 따르며, Near‑RT RIC에 HITL‑RL 에이전트가 상주하고, Distributed Unit(DU)·Radio Unit(RU)이 물리 계층 연결을 담당한다. 의미 모델은 인코더‑디코더 쌍으로 동작하고, 인코더는 gNB에, 디코더는 각 UE에 배치된다. 인간 운영자는 복원된 의미를 평가하고 피드백을 RIC에 전송한다. RIC는 이를 융합·모델을 업데이트하고, 엄격한 타이밍 예산 하에 구성 변경을 전파한다.

제어 루프는 프레임 인덱스 (t\in{0,1,\dots}) 로 이산화되며, 각 프레임은 슬롯 할당(NR 미니‑슬롯에 해당)으로 구성되어 의미 적응에 동적으로 할당된다. 각 UE (i)는 서비스 클래스 (k(i))에 속하고, 마감 ($d_i$)는 의미 저하를 감지하고 디코더를 재배포하기까지 허용되는 최대 시간이다.

프레임 (t)에서 gNB는 소스 특징 (\mathbf{x}_t\in\mathbb{R}^{$n_s$})와 과거 컨텍스트 (\mathbf{m}_t)를 입력받는다. 인코더 파라미터 (\ph$i_t$)는 잠재 임베딩 (\mathbf{z}_t)를 생성하고, 이를 복소수 심볼 블록 (\mathbf{s}_t=E(\mathbf{z}_t)\in\mathbb{C}^{$n_c$}) 로 매핑한다. 전송 전 파워 제약 (|\mathbf{s}_t|2^2\le $n_c$P{\max}) 를 만족한다. RU는 블록‑페이딩 MIMO 채널을 통해 (\mathbf{s}_t) 를 전송한다.

[ \mathbf{y}{i,t}= \mathbf{H}{i,t}\mathbf{s}t + \mathbf{n}{i,t},\qquad \mathbf{n}_{i,t}\sim\mathcal{CN}(\mathbf{0},\sigm$a_i$^2\mathbf{I}) ]

각 UE는 개인화 디코더 (\psi_{i,t}) 와 로컬 사이드 정보 (\mathbf{c}_{i,t}) (예: 서비스 컨텍스트, 센서 스냅샷)를 이용해 복원한다.

[ \hat{\mathbf{x}}{i,t}= g{\psi_{i,t}}(\mathbf{y}{i,t},\mathbf{c}{i,t}) ]

복원 품질은 작업 손실 (\el$l_i$(\hat{\mathbf{x}}_{i,t},\mathbf{x}t)) 로 측정되며, 보조적인 품질 점수 (q{i,t}=1-\el$l_i$(\cdot)) 로 표현된다. 이 점수는 Near‑RT RIC 으로 보고된다.

UE‑측 인간 평가자는 스칼라 혹은 벡터 피드백 (\mathbf{F}_{i,t}) 를 uplink 제어·데이터 베어러를 통해 전송한다. 사용된 PHY 채널은 구현에 따라 달라지므로 본 연구에서는 추상화한다. 핵심은 Near‑RT RIC 가 피드백을 수집·집계·활용 하는 방법이다. Open RAN 프레임워크 내에서 SMO·Near‑RT RIC 모듈은 피드백을 정규화된 선호 점수 (\tilde{U}_i) 로 변환한다.

[ \tilde{U}i = \et$a_i$,$U_i$(\mathbf{p}{i,t}) + (1-\et$a_i$),H_{\text{pref}}(\mathbf{F}_{i,t}),\qquad \et$a_i$\in[0,1] ]

여기서 ($U_i$) 는 객관적 KPI(예: 탐지 정확도) 를, (H_{\text{pref}}) 는 주관적 만족도를 인코딩한다. Near‑RT RIC 는 지수 가중 이동 평균을 유지한다.

[ \bar{U}{i,t+1}= (1-\alph$a_i$)\bar{U}{i,t} + \alph$a_i$\tilde{U}_{i,t},\qquad \alph$a_i$\in(0,1] ]

(\bar{U}_{i,t}) 는 RL 상태의 일부가 되며 장기 의미 정렬을 보조한다.

2. 적응 액션 및 지연 모델

에이전트는 적응 액션 ($a_t$\in\mathcal{U}) 를 선택한다. 액션 종류는 다음과 같다.

액션	설명
LIGHTADAPT	디코더 통계 혹은 어댑터를 최소한으로 갱신 (지연 최소)
FEATREFINE	중간 규모 파인‑튜닝 (예: LoRA 레이어)
FULLRETRAIN	전체 지식 기반 업데이트 (고비용)
DEPLOY‑CACHED	캐시된 안정 모델을 롤백·재배포
NOOP	아무 변화도 없음

액션 수행 시 전체 지연은 다음과 같이 모델링한다.

[ C^{\text{total}}{i,t}= C^{\text{fb}}{i,t}+ C^{\text{RIC}}{i,t}+ C^{\text{tx}}{i,t}+ C^{\text{reconf}}_{i,t} ]

(C^{\text{fb}}_{i,t}): 인간 피드백 획득 및 uplink 전송 지연
(C^{\text{RIC}}_{i,t}): Near‑RT RIC 내 분석·결정(큐잉 포함) 지연
(C^{\text{tx}}_{i,t}): 프론트‑홀/백홀을 통한 파라미터 전파 지연
(C^{\text{reconf}}_{i,t}): UE‑측 디코더 배포·워밍‑스타트 지연

각 서비스 클래스 (k\in\mathcal{K}) 에는 3GPP 5QI 기준에 맞춘 예산 (B^{\text{RIC}}k) 와 마감 ($d_i$) 가 할당된다. RIC 은 현재 잔여 여유 (\Delta^{\text{RIC}}{t}) 와 정규화된 마감 부채 (\delta_{i,t}= \bigl[ -\Delta_{i,t}\bigr]^+/$d_i$) 를 에이전트에 제공한다.

3. 시간‑제한 CMDP 정의

CMDP (M=(\mathcal{S},\mathcal{A},P,r,c,\gamma)) 의 구성 요소는 다음과 같다.

상태 (\mathcal{S}): 프레임 시작 시 Near‑RT RIC 이 관찰하는 벡터

[ $s_t$ = \bigl[,\mathbf{q}_t,;\bar{\mathbf{U}}_t,;\Delta^{\text{RIC}}_t,;\boldsymbol{\delta}_t,;\mathbf{H}_t,;T^{\text{avail}}_t,\bigr] ]

(\mathbf{q}t=[q{1,t},\dots,q_{N,t}]^\top): UE 별 즉시 의미 품질
(\bar{\mathbf{U}}t=[\bar{U}{1,t},\dots,\bar{U}_{N,t}]^\top): 인간 정렬 효용 추정치
(\Delta^{\text{RIC}}_t): RIC 처리 예산 잔여량
(\boldsymbol{\delta}_t): UE 별 정규화 마감 부채
(\mathbf{H}_t): 현재 채널 행렬 집합
(T^{\text{avail}}_t): 의미 슬라이스에 할당된 미니‑슬롯 예산
액션 (\mathcal{A}): 복합 액션 ($a_t$=($u_t$,\mathbf{b}_t)) 로 구성
- ($u_t$\in\mathcal{U}) : 위 표에 정의된 적응 원시(primitives)
- (\mathbf{b}t=[b{1,t},\dots,b_{N,t}]^\top\in{0,1}^N) : 해당 프레임에 적응을 수행할 UE 선택
실현 가능 영역

[ \mathcal{A}^{\text{feas}}($s_t$)=\Bigl{(u,\mathbf{b});\big|; C^{\text{RIC}}_t(\mathbf{b})\le \Delta^{\text{RIC}}t,; \forall i:; $b_i$=1\Rightarrow C^{\text{total}}{i,t}(u)\le $d_i$\Bigr} ]

전이 커널 (P): (s_{t+1}\sim P(\cdot|$s_t$,$a_t$)) 은 (i) JSCC 재구성, (ii) 인간 피드백 융합, (iii) 지연 분해를 포함한다.
보상 (r): 의미 향상과 연산 비용을 균형 있게 반영

[ $r_t$ = \sum_{i=1}^{N} $w_i$\Bigl[,\bar{U}{i,t+1} - \beta{\delta},\delta_{i,t+1}\Bigr] - \chi($u_t$),\beta_{u} ]

($w_i$): 서비스 우선순위 가중치
(\chi($u_t$)): 선택된 원시의 연산 비용 (예: FLOPs)
(\beta_{\delta},\beta_{u}\ge0): 의미 이득 vs. 마감 스트레스 트레이드‑오프 파라미터
제약 비용 (c): 두 개의 평균 제약
1. RIC 처리 예산
[ c^{(1)}_t = C^{\text{RIC}}_t(\mathbf{b}_t) ]
1. 마감 초과
[ c^{(2)}t = \sum{i=1}^{N} \bigl[\delta_{i,t}\bigr]^+ ]
할인율 (\gamma\in(0,1))

4. 프라임‑듀얼 PPO with Shield (TC‑PPO)

정책 (\pi_{\theta}(a|s)) 와 할인율 (\gamma) 를 갖는 정상정책을 최적화한다. 목표는

[ \max_{\pi_{\theta}} ; \mathbb{E}\Bigl[\sum_{t=0}^{\infty}\gamma^{t} $r_t$\Bigr] \quad\text{s.t.}\quad \mathbb{E}[c^{(j)}]\le d^{(j)},; j=1,2 ]

여기서 (d^{(1)} = \mathbb{E}[T^{\text{avail}}_t]) (RIC 평균 예산)이며, (d^{(2)}=0) 은 평균 마감 위반을 금지한다(허용 위반 확률을 허용하려면 (d^{(2)}>0) 로 설정 가능).

4.1 라그랑주 듀얼화

두 제약에 대한 라그랑주 승수 (\lambda=[\lambda_1,\lambda_2]^\top\ge0) 를 도입한다.

[ \mathcal{L}(\theta,\lambda)=\mathbb{E}\Bigl[\sum_{t}\gamma^{t}\bigl($r_t$ - \lambda^\top $c_t$\bigr)\Bigr] + \lambda^\top d ]

4.2 PPO 서프라이즈와 클리핑

클리핑 비율 (\epsilon) 와 중요도 비율 (\rh$o_t$ = \frac{\pi_{\theta}($a_t$|$s_t$)}{\pi_{\theta_{\text{old}}}($a_t$|$s_t$)}) 를 사용해 클리핑 서프라이즈를 정의한다.

[ L^{\text{CLIP}}_t(\theta)=\min\Bigl(\rh$o_t$ \hat{A}_t,; \text{clip}(\rh$o_t$,1-\epsilon,1+\epsilon)\hat{A}_t\Bigr) ]

여기서 (\hat{A}_t) 는 Generalized Advantage Estimate (GAE) 로 계산한다.

4.3 비용 비평가와 듀얼 업데이트

각 제약 (j) 에 대해 비용 비평가 (V^{c}_{j,\n$u_j$}(s)) 를 학습한다. 비용 어드밴티지는 동일한 GAE 방식을 적용한다. 듀얼 변수는 다음과 같이 경사 상승한다.

[ \lambd$a_j$ \leftarrow \bigl[\lambd$a_j$ + \alpha_{\lambda}\bigl(\hat{c}^{(j)}t - d^{(j)}\bigr)\bigr]+ ]

(\alpha_{\lambda}) 는 학습률이며, 지수 이동 평균(EMA) 로 잡음이 완화된다.

4.4 액션 실드 (Shield)

평균 제약만으로는 프레임‑단위 안전을 보장할 수 없으므로, 액션 실드를 도입한다. 후보 정책 (\pi_{\theta}) 가 출력한 ((u,\mathbf{b})) 를 실현 가능 집합 (\mathcal{A}^{\text{feas}}($s_t$)) 로 투사한다.

원시 (u) 가 현재 잔여 예산을 초과하면 가벼운 원시(LIGHTADAPT → FEATREFINE → FULLRETRAIN 순) 로 순차적으로 다운그레이드한다.
원시가 고정된 경우, 스케줄링 마스크 (\mathbf{b}) 를 그리디하게 잔여 슬랙 (\Delta^{\text{RIC}}t) 와 각 UE 마감 부채 (\delta{i,t}) 를 고려해 차감한다.
어느 경우에도 실현 가능 조합이 없으면 NOOP 로 강제한다.

이 실드는 학습 단계와 실제 배포 모두에서 적용되며, 프레임당 실시간 안전성을 보장한다.

4.5 알고리즘 요약 (Algorithm 1)

현재 정책 (\pi_{\theta}) 와 실드 (\mathcal{A}^{\text{feas}}) 로 L‑프레임 롤아웃을 수집한다.
수집된 트랜지션으로 보상·비용 어드밴티지와 리턴을 계산한다.
보상·비용 비평가를 경사 하강법으로 업데이트한다.
클리핑 서프라이즈와 듀얼 손실을 이용해 정책 파라미터 (\theta) 를 업데이트한다.
듀얼 변수 (\lambda) 를 경사 상승 후 EMA 로 평활한다.
지연 예측기를 최신 관측치로 갱신한다.
위 과정을 지정된 에포크 수만큼 반복하고, 최종 정책을 온라인 실드와 함께 배포한다.

5. 시뮬레이션 및 평가

5.1 실험 설정

시나리오: 단일 의미‑인식 gNB 가 (N\in{8,16}) UE 를 서비스한다. UE마다 이질적인 마감 ($d_i$) 와 백로그가 존재한다.
수치: 각 10 ms 프레임은 수치 (\mu\in{0,1,2}) 를 무작위로 선택해 슬롯·심볼 길이를 결정한다. 미니‑슬롯 할당 (n^{\text{sym}}_{t}\in{2,4,7}) 로 동적 제공한다.
파라미터: 라디오·지연·학습 하이퍼파라미터는 Table I 에 정리했으며, 코드와 설정 파일은 공개 저장소에 함께 제공한다.

5.2 비교 대상

Unconstrained PPO: 라그랑주 승수를 비활성화한 PPO.
Discrete‑action DQN: 슬랙·백로그 통계 기반으로 원시‑마스크 템플릿을 선택하는 DQN 스케줄러.
Random Feasible Scheduler: 가능한 액션 중 무작위 선택 (실드 적용).

DQN 은 최소 서비스 수준을 유지하도록 언더‑유틸리제이션 패널티를 추가해, 모든 에이전트가 비슷한 최소 QoS 를 제공하도록 보장한다.

5.3 학습 수렴 (Fig. 2)

(N=8)·(N=16) 에 대해 5개의 시드 평균 보상이 표시된다.
Unconstrained PPO와 TC‑PPO 모두 약 200 iteration 내에 수렴하며, 가장 높은 의미 효용을 달성한다.
DQN 은 사전 정의된 템플릿만 선택하므로 PPO 계열보다 낮은 보상을 기록한다.
Random 은 전반적으로 낮은 보상을 보인다.

5.4 자원 사용 (Fig. 3)

Air‑interface overhead ((C^{\text{fb}}+C^{\text{tx}})) 와 RIC 처리 시간 (C^{\text{RIC}}) 를 표시한다.
(N=8) 일 때 PPO/TC‑PPO 는 슬랙이 허용될 경우 FULLRETRAIN 과 LIGHTADAPT 을 번갈아 사용해 높은 보상을 얻지만, 오버헤드 변동성이 크다.
(N=16) 일 때는 무거운 업데이트가 지속되어 오버헤드가 안정화된다.
DQN 은 이용률 패널티 때문에 PPO 수준의 통신 시간을 사용하지만 보상은 낮다.
TC‑PPO 는 평균 RIC 사용량을 PPO 와 비슷하게 유지하면서, 변동 폭이 더 작아 지연 제어가 강화된 것을 확인할 수 있다.

5.5 배포 안정성 (Fig. 4)

학습 후 30 episode 에 대한 평균 보상·오버헤드·마감 충족률을 보고한다.
TC‑PPO 는 PPO 와 동등한 보상을 유지하면서, 오버헤드 분산이 작고 모든 에피소드에서 마감 충족률 = 1 을 달성한다.
DQN 과 Random 은 보상이 낮으며, DQN 은 최소 서비스 패널티 때문에 자원 사용량이 TC‑PPO 와 비슷하지만 효용이 떨어진다.

5.6 Ablation Study (Fig. 5)

다음 네 가지 요소를 각각 비활성화하고 성능을 평가한다.

실험	비활성화 요소	주요 변화
(i)	Safety Shield	평균 오버헤드 감소하지만 보상 급감 (공격적인 업데이트로 마감 위반 발생)
(ii)	Cost Critics (penalty‑only)	보상 수렴은 가능하지만 자원 변동이 커짐
(iii)	Dual Multipliers 고정	정책이 과도하게 보수적이 되어 보상·오버헤드 모두 감소
(iv)	Shield Fallback Order (Light→Feat→Full)	경량 업데이트를 우선해 오버헤드 감소, 보상은 다소 감소

결과는 평균 제약과 즉시 실현 가능성이 상호 보완적임을 보여준다.

6. 논의 및 결론

본 연구는 시간‑제한 HITL‑RL 이 의미 적응을 평균·프레임‑단위 지연 제약을 동시에 만족하면서도 높은 의미 효용을 달성할 수 있음을 입증한다. 다만 몇 가지 가정·제한이 남아 있다.

피드백 전송: 현재는 신뢰성·저지연 uplink 피드백을 전제했으며, 실제 혼잡 환경에서는 우선순위 베어러, 경량 압축, 지연‑인식 버퍼링이 필요하다.
단일 셀: 다중 셀·협업 엣지 시나리오에서 RIC 간 상호작용·공유 프론트‑홀 제한을 고려한 확장이 필요하다.
피드백 차원: 현재는 스칼라 선호만 사용했지만, 신뢰도·다중 차원 피드백을 포함하면 CMDP 상태가 더욱 풍부해질 수 있다.

향후 연구는 NR 테스트베드에서 하드웨어‑인‑루프 검증, 멀티‑셀 협업 및 다차원 인간 피드백 통합을 목표로 한다.

결론적으로, 우리는 시간‑제한 HITL‑RL 프레임워크를 제시하고, 의미 브로드캐스팅을 CMDP 로 모델링한 뒤 프라임‑듀얼 PPO + 액션 실드 로 해결하였다. 실험 결과는 PPO 수준의 보상을 유지하면서 자원 사용의 변동성을 크게 감소시켰으며, Ablation 을 통해 각 구성 요소의 기여도를 확인하였다. 이러한 결과는 원칙적인 CMDP 제어가 배포 가능한, 지연‑인식 의미 통신을 구현하는 유망한 경로임을 시사한다.