딥 강화 학습(Deep RL)은 최근 다양한 분야에서 성공을 거두고 있으나, 적합한 보상 함수를 정의하는 것은 여전히 도전적이다. 이 연구에서는 선호 기반 강화 학습(PbRL)에서 비전문가 교사로부터 받는 피드백에 의해 발생하는 특징 종속 잡음을 모델링하고 평가한다. 이를 통해 RL 에이전트의 성능 향상을 추구하며, 다양한 상태-작업 공간에서 발생할 수 있는 다양한 유형의 특징 종속 잡음에 대해 논의한다.
💡 논문 해설
1. **특성 종속 잡음 모델링**:
- 초간단 설명: 우리가 좋아하는 음식을 결정하는 데 있어, 맛과 가격이 중요한 특성이 될 수 있습니다. 때때로 우리는 이 두 가지를 혼동할 수도 있고, 그 결과 우리의 선택에 오류가 발생합니다. 이 연구에서는 비전문가 교사의 피드백에서 일어나는 이런 종류의 오류를 모델링하는 방법을 제안합니다.
- 중간 설명: 선호 기반 강화 학습(PbRL)은 에이전트에게 교사로부터 받은 피드백에 따라 행동하도록 가르칩니다. 그러나 비전문가 교사는 특정 특성에 대해 혼란스러워 할 수 있어, 그들의 피드백에는 잡음이 포함될 가능성이 있습니다. 이 연구에서는 이러한 특성 종속 잡음을 정의하고 모델링하는 방법을 제시합니다.
- 고급 설명: 비전문가 교사로부터 받는 피드백은 에이전트 학습에 중요한 역할을 합니다. 그러나 비전문가 교사는 특정 상태-작업 쌍에서 혼란스러워 할 수 있어, 그들의 피드백에는 특성 종속 잡음이 발생합니다. 이 연구에서는 다양한 유형의 특성 종속 잡음을 정의하고, 이를 통해 에이전트 학습 성능을 개선하는 방법을 제시합니다.
비전문가 교사 모델링:
초간단 설명: 우리가 친구에게 음식 추천을 받는 경우, 친구의 취향이나 경험에 따라 추천이 달라질 수 있습니다. 이 연구에서는 비전문가 교사를 다양한 유형으로 분류하고 그들의 피드백 패턴을 이해하는 방법을 제시합니다.
중간 설명: 비전문가 교사의 피드백은 에이전트 학습에 중요한 영향을 미칩니다. 그러나 비전문가 교사는 특정 특성에 따라 혼란스러워 할 수 있습니다. 이 연구에서는 이러한 현상을 모델링하고, 이를 통해 에이전트가 더 효과적으로 학습할 수 있도록 하는 방법을 제시합니다.
고급 설명: 비전문가 교사의 피드백은 교사의 경험과 특정 특성에 따라 달라집니다. 이 연구에서는 다양한 유형의 비전문가 교사를 정의하고, 그들의 피드백 패턴을 분석하여 에이전트 학습 성능을 개선하는 방법을 제시합니다.
잡음 모델 평가:
초간단 설명: 우리가 추천 받은 음식이 맛있게 느껴지려면, 그 추천의 신뢰성에 대한 평가는 중요합니다. 이 연구에서는 비전문가 교사로부터 받는 피드백의 신뢰성을 평가하는 방법을 제시합니다.
중간 설명: 에이전트 학습 성능을 개선하기 위해서는 비전문가 교사의 피드백에 포함된 잡음의 영향력을 이해하고 평가해야 합니다. 이 연구에서는 다양한 유형의 특성 종속 잡음을 평가하는 방법을 제시합니다.
고급 설명: 에이전트 학습 성능 향상을 위해 비전문가 교사로부터 받는 피드백에 포함된 잡음의 영향력을 이해하고 평가는 필수적입니다. 이 연구에서는 다양한 유형의 특성 종속 잡음을 평가하고, 이를 통해 에이전트 학습 성능을 개선하는 방법을 제시합니다.
📄 논문 발췌 (ArXiv Source)
# 서론
딥 강화 학습(Deep RL)은 최근 성공을 거두었으며 칩 설계, 수자원 관리 시스템, 게임 동반자 및 의료 분야 등 흥미로운 응용 분야에서 광범위하게 활용되고 있습니다. 그럼에도 불구하고, 강화 학습에 대한 정보적인 보상 함수를 지정하는 것은 여전히 도전적입니다. 이는 일반적으로 전문가나 RL 개발자가 정의합니다. 문헌에는 시도착오로 설계된 보상 함수들이 특정 RL 알고리즘이나 학습 맥락에 과적합되어 전체 작업 메트릭 성능을 크게 저하시키는 경향이 있다는 증거가 있습니다. 대리 보상 함수 또한 보상 해킹과 같은 원치 않는 현상을 초래할 수 있습니다.
보상 함수를 지정하는 쉬운 방법은 희박한 보상으로 만드는 것입니다; 즉, 작업이 완료되면 $`+1`$의 보상을 제공하고 그렇지 않으면 $`0`$을 제공합니다. 딥 RL은 이러한 희박한 보상 때문에 잘 알려진 샘플 비효율 문제를 겪으며 에이전트가 효율적으로 학습하는 것을 어렵게 합니다. 손으로 만들어진 보상 함수에 대한 의존성을 줄이기 위해 선호 기반 강화 학습(PbRL)은 선생님이 제공한 트래JECTORY 세그먼트 쌍에 대한 이진 선호도에서 보상 함수를 배우는 선생님과 함께하는 패러다임으로 인기가 있습니다. 딥 RL 에이전트는 학습된 보상 함수를 사용하여 선생님의 작업 선호도와 잘 맞는 최적 정책을 학습합니다. 일반적으로 이러한 방법은 복잡한 연속 제어 작업에서 성공적이지만, 선호 레이블에 대한 오라클 액세스라는 한정된 가정을 필요로 합니다.
선호 레이블에 대한 오라클 액세스의 한정된 가정을 해결하기 위해 Lee 등은 다양한 종류의 교사를 도입했습니다. 이는 인간 선생님처럼 에러를 내는 단순한 교사와 기계적 에러를 내는 교사를 포함합니다. 본 연구에서는 인간이 트래JECTORY 쌍에 대한 비교 피드백을 제공할 때 에러를 내기 쉬운 다양한 방법을 모티브로 선호 기반 RL 프레임워크 내에서 특성 종속 잡음의 아이디어를 정식화합니다. [IMG_PROTECT_N]에서 예제 E1에 나타난 것처럼 PbRL 내에서는 인간 선생님이 두 개의 유사한 트래JECTORY를 만났을 때 비교 피드백을 제공하는 것이 어렵기 때문에 에러를 내기 쉽습니다. 다른 비슷한 예는, 예제 E2에서 보듯이 두 샘플링된 트래JECTORY가 미세하지만 중요하지 않은 차이점(그림에서 축구공은 거의 보이지 않음)을 가질 때 선생님이 이러한 중요한 세부 사항을 건너뛰고 선호 레이블에 잡음을 유발할 수 있습니다. 이전 연구에서는 비슷한 트래JECTORY 쌍의 경우 중립적인 선호를 부여합니다. 그러나 실용적 설정에서, 전문가가 아닌 주석자는 이러한 유사성을 정확히 인식하지 못하여 일관성 없거나 잡음이 있는 선호 피드백을 제공할 수 있습니다.
본 연구에서는 특성 종속 잡음을 제공하는 몇 가지 교사 모델을 소개합니다. 이는 전문가가 아닌 교사로부터 선호를 모델링하기 위한 실용적인 방법입니다. 특성 종속 잡음의 직관은 이러한 잡음 모델이 특정 특성 하위 집합 또는 표현에 의존하고 따라서 특성이 함수로 변한다는 것입니다. 이러한 종류의 잡음 함수는 인간 판단의 불확실성을 나타내며, 이는 트래JECTORY의 가시적 특징과 체계적으로 연결됩니다. 예를 들어, 만약 인간 선생님이 트래JECTORY 쌍 간의 유사성 때문에 선호 레이블에 잡음을 추가한다면, 특성 종속 잡음은 두 개의 트래JECTORY 사이의 유사도 측정치로서 함수로 변합니다. 즉, 비전문가 교사는 유사한 트래JECTORY에 대해 더 많은 오류를 내고 다양성이 높은 트래JECTORY에 대해서는 덜 많이 내게 됩니다. 또한 언어 모델을 PbRL의 교사로 사용할 때 잡음 함수를 경험적으로 평가하여 그것들이 특성 종속 잡음과 행동적으로 유사한지 이해합니다.
최근 몇 년 동안 여러 최신 알고리즘은 잡음을 식별하고 필터링하는 기능을 제시했습니다. 본 연구에서는 이러한 최신 접근 방식 중 하나를 사용하여 특성 종속 잡음 모델을 평가합니다. 그러나 특성 종속 잡음이 트래JECTORY의 특징과 연관되어 있으므로, 주로 균일한(특성 독립) 잡음을 처리하도록 설계된 이러한 알고리즘은 그러한 오류를 효과적으로 식별하는 것이 어렵습니다. 균일한 잡음은 선호 레이블을 무작위로 영향을 미치므로 현재의 잡음 제거 방법에 의해 더 쉽게 식별됩니다. 그러나 특성 종속 잡음은 구조화된 상관관계를 보여주어 그것들을 식별하고 필터링하는 것이 훨씬 어렵게 만듭니다. 따라서 에이전트 성능이 저하됩니다.
본 연구의 기여에는 (1) PbRL 프레임워크 내에서 특성 종속 잡음의 정식화, 선호 데이터에 대한 구조적이고 특징 관련된 불확실성을 제공하는 기반, (2) 비전문가 인간 피드백으로부터 발생하는 실제, 특징 주도의 일관성 부족을 포착하는 여러 가지 특성 종속 잡음 모델의 도입; 그리고 (3) 이러한 잡음 모델이 PbRL 알고리즘에서 에이전트 학습 성능에 미치는 영향을 평가하기 위한 몇 가지 최신 PbRL 알고리즘 사용. (4) 언어/시각 모델(LM/VLM) 기반 피드백의 경험적 분석을 통해 이러한 모델들의 품질에 따라 유발된 잡음 함수가 특성 종속 잡음과 강력한 유사성을 보임을 증명합니다. 본 연구에서는 기존 PbRL 알고리즘에 대한 여러 가지 특성 종속 잡음 모델을 도입하고 체계적으로 평가합니다. VLM 기반 PbRL의 평가는 단지 VLM에서 생성된 조언과 특성 종속 잡음 사이의 유사성을 설명하기 위한 것으로, 본 연구의 주요 초점은 아닙니다. DMControl 및 Meta-world로부터 복잡한 연속 제어 벤치마크에 대한 광범위한 실험을 통해 이러한 잡음 함수는 현재 존재하는 잡음 제거 알고리즘으로부터 검출하기 어렵다는 것을 보여주며, 이 방향으로의 연구 필요성을 확인합니다.
사전 지식
강화 학습: 강화 학습(RL)은 마르코프 의사결정 과정(MDP)을 사용하여 표현되며, $`M= ( \mathcal{S}, \mathcal{A}, \mathcal{P}, R, \gamma )`$로 표기됩니다. 여기서 $`\mathcal{S}`$는 에이전트의 상태 공간을 나타내고, $`\mathcal{A}`$는 에이전트의 작업 공간입니다.
$`\mathcal{P}:\mathcal{S}\times \mathcal{A} \times \mathcal{S} \rightarrow [0,1]`$
은 환경 동력 전환 확률이고,
$`R: \mathcal{S} \times \mathcal{A} \times \mathcal{S} \rightarrow \mathbb{R}`$
는 즉각적인 보상을 출력하는 보상 함수이며 $`\gamma`$는 할인 요소입니다. 에이전트의 목표는 할인된 보상 합계를 최대화하는 정책 $`\pi(a|s)`$을 학습하는 것입니다.
선호 기반 RL: 선호 기반 RL(PbRL)에서는 보상 함수 $`R`$이 교사 선호도로부터 훈련됩니다. 선호는 두 트래JECTORY 세그먼트 사이의 이진 신호로, 어떤 트래JECTORY 세그먼트가 다른 것보다 더 선호되는지를 나타내는 비교 피드백을 제공합니다.
$`\tau_1 = \{(s_t^1, a_t^1)\}_{t=0}^T`$
와
$`\tau_2 = \{(s_t^2, a_t^2)\}_{t=0}^T`$
라는 트래JECTORY 쌍이 주어졌을 때,
선호 레이블 $`y \in \{1, 0.5, 0\}`$은
$`\tau_1 \succ \tau_2 (y=1)`$, $`\tau_1 \prec \tau_2 (y=0)`$ 또는 $`\tau_1 = \tau_2 (y=0.5)`$
를 나타냅니다.
PbRL의 주요 목표는 선호와 일관된 보상 모델
$`\hat{R}_\theta(s, a)`$, 매개변수화된 $`\theta`$를 학습하는 것입니다.
이는 다음과 같이 Bradley-Terry 모델을 사용하여 선호를 모델링합니다:
여기서 $`P(\tau_1 \succ \tau_2)`$는 트래JECTORY $`\tau_1`$을 $`\tau_2`$보다 선호하는 확률을 나타냅니다. 선호 레이블과 예측된 레이블 사이의 교차 엔트로피 손실은 보상 함수 $`\hat{R}_\theta (s,a)`$를 아래와 같이 업데이트하기 위해 최소화됩니다:
본 연구에서는 PbRL의 맥락에서 교사에 의해 유발된 특성 종속 잡음(FDN)을 정식화합니다. 우리는 최대 정보를 제공하는 이진 선호도를 고려하고, 차이가 없는 학습에는 영향을 미치지 않는 동등한 선호도(y=0.5)는 제외합니다.
$`Y`$
와 $`Y^*`$
는 관찰된 선호 레이블과 관찰되지 않은 진실의 선호 레이블에 대한 무작위 변수를 나타냅니다. 선호는
$`y \in \mathcal{Y}`$
로 표현되며, 이는 특성 하위 집합 $`\langle \mathbf{X}_1, \mathbf{X}_2 \rangle`$에 대한 주석자의 선호도를 나타내는데,
$`\mathbf{X}_1`$
와
$`\mathbf{X}_2 \in \mathbb{P}(\mathbf{X})`$
입니다. 즉,
$`\mathbf{X}_1`$
와 $`\mathbf{X}_2`$
는 특성 집합 $`\mathbf{X}`$의 멱집합에 속합니다.
PbRL에서, 특성 공간 $`\mathbf{X}`$는 상태와 작업을 특징 매핑 $`\phi: \mathcal{T} \rightarrow \mathbb{P}(X)`$로 표현하는 트래JECTORY 공간 $`\mathcal{T}`$입니다. 관찰되지 않은 진실의 보상 함수 $`R_o`$가 주어졌을 때, 임의의 트래JECTORY $`\tau \in \mathcal{T}`$에 대한 진정한 트래JECTORY 보상은
$`G(\tau)=\sum_{i=0}^T \gamma^{i}R_o(s_i,a_i,s_{i+1})`$
입니다. 각 트래JECTORY 쌍 $`(\tau_1, \tau_2)`$에 대해 진실의 선호를 제공하는 오라클 교사 $`T_o`$는 다음과 같이 정의됩니다:
비전문가 교사 $`T_{n}`$을 모델링하기 위해, 트래JECTORY 쌍 $`(\tau_1,\tau_2)`$와 관찰되지 않은 진실의 선호 레이블 $`y^*`$에 의해 선호 레이블을 잘못 바꾸는 확률을 나타내는 잡음 함수
$`N(\tau_1, \tau_2): \mathcal{T}^2\rightarrow [0,1]`$
가 있습니다. 수학적으로, 잡음 함수 $`N(\tau_1,\tau_2)=P(Y \neq Y^*|Y^*, \phi(\tau_1),\phi(\tau_2))`$는 트래JECTORY 쌍에 대응하는 특성 하위 집합 위에서 정의됩니다. 비전문가 교사 모델은 다음과 같이 표현됩니다:
위의 식에서 첫 번째 항은 잡음 교사 $`T_n`$이 진실에 따라 선호 레이블을 올바르게 선택하는 확률을 나타내며, 두 번째 항은 트래JECTORY 순서 $`(\tau_1 \succ \tau_2)`$를 잘못 선택하는 확률을 나타냅니다. 이 잡음 함수는 대칭적이므로 $`\forall \tau_1, \tau_2, N(\tau_1, \tau_2)=N(\tau_2, \tau_1)`$, 그리고 교사 $`T_o`$와 $`T_n`$은 서로 조건부 독립입니다. 이 함수는 평균적인 확률 분포 잡음인 상수일 수 있지만, 우리는 특성 공간에 따라 이 확률이 달라지는 복잡한 경우를 중점적으로 다룹니다. 이를 통해 특성 종속 잡음을 얻을 수 있습니다. 다음 섹션에서 다양한 유형의 특성 종속 잡음에 대해 자세히 설명합니다.
style="width:100.0%" />
특성 종속 잡음의 예입니다. 교사는 유사한 트래JECTORY(E1) 또는 관찰에서 쉽게 눈치채기 어려운 숨겨진 세부 사항(E2) 때문에 오류를 내기 쉽습니다. 본 실험에서는 이러한 FDN의 다양한 유형을 탐색합니다.
특성 종속 잡음 범주
이 섹션에서는 다양한 유형의 Feature-Dependent Noise에 대해 논의합니다.
트래JECTORY 유사도 잡음: 이 잡음의 직관은 두 개의 트래JECTORY가 유사할수록 교사가 FDN을 유발하는 확률이 증가하고 그 반대도 마찬가지라는 것입니다. 트래JECTORY 유사도 잡음에서는 특성이 트래JECTORY 쌍 $`x=(\tau_1, \tau_2)`$이며, 잡음 함수는
$`N(\tau_1,\tau_2) \sim \frac{1}{D(\phi(\tau_1),\phi(\tau_2))}`$
입니다. 여기서 $`D`$는 거리 측정입니다. 우리의 설정에서는 전체 트래JECTORY를 고려하므로
$`\phi`$
는 항등 매핑입니다. 예로,
$`N(\tau_1,\tau_2) = min(1, \frac{1}{||\phi(\tau_1)-\phi(\tau_2))||^2_2})`$
에서 두 트래JECTORY 간의 L2 거리에 비례한 잡음 확률을 볼 수 있습니다. D를 계산하는 다른 방법은 인코더를 사용하여 잠재 공간에서 거리를 계산하는 것입니다.
$`D =||\phi(Enc(\tau_1))-\phi(Enc(\tau_2))||^2_2`$
; $`Enc(\tau)`$
는 임베딩 공간에서 트래JECTORY 표현을 출력하는 인코더 함수를 나타냅니다. 실험에서는 잡음 비율을 제어하기 쉽게 하기 위해 원하는 양의 잡음을 보장하기 위해 임계값을 수동으로 선택합니다.
트래JECTORY 특성 크기 잡음: 인간 교사는 특히 일부 특성 하위 집합에 강하게 영향을 미치는 차이점이 있을 때 트래JECTORY를 구별하는 데 어려움을 겪습니다. 특히, HalfCheetah와 같은 도메인에서는 관절 간의 토크 적용에 큰 변동성이 있어 결과 트래JECTORY가 시각적으로 불안정하게 보일 수 있습니다. 이러한 불안정성은 레이블 반전 확률을 증가시켜 FDN 확률도 증가시키게 됩니다. 이 유형의 잡음에서는 특성은 트래JECTORY의 하위 집합입니다. 이러한 특성은 도메인 지식에서 사전 정의되며, 교사는 해당 하위 집합의 크기 변화(크기 변경)로 인해 좋은 또는 나쁜 트래JECTORY 세그먼트를 구별하는 데 어려움을 겪습니다.
특성은 트래JECTORY 쌍 $`x = (\tau_1, \tau_2)`$이며 각 트래JECTORY는 상태나 작업 특성 하위 집합의 시간 평균 노름으로 요약됩니다. 여기서 특성 매핑 $`\phi`$
는 특성 공간 $`\mathbf{X}`$의 하위 집합에 매핑합니다.
$`\Delta = \lVert \phi(\tau_1) \rVert - \lVert \phi(\tau_2) \rVert`$
에서
$`\lVert \phi(\tau) \rVert = \tfrac{1}{T}\sum_{t=1}^{T}\lVert \phi(\tau)_t \rVert_2`$
는 트래JECTORY에 따라 특성 하위 집합의 평균 노름을 나타냅니다. 잡음 함수는 다음과 같이 정의됩니다:
여기서 $`\beta`$
는 스케일링 매개변수입니다. $`N(\tau_1,\tau_2)`$
에서 베르누이 샘플은 선호 레이블을 반전시키고, 배치당 최대 반전 수의 상한을 설정합니다. 부호 함수는 트래JECTORY 특성 하위 집합의 상대 크기를 통합하여 $`N(\tau_1,\tau_2)`$
가 한 트래JECTORY가 다른 것보다 더 큰 특성 크기를 나타낼 때 증가합니다.
불확실성 인식 잡음: 인간 주석자는 보상 모델 자체가 불확실한 비교에 대해 신뢰할 수 없는 피드백을 제공하기 쉽습니다. 모델이 어려워하는 판단은 종종 교사에게도 어려움을 줍니다. 따라서, 모델의 불확실성을 가이드로 하는 잡음을 주입합니다.