알고리즘 계약 이론에서 중앙 문제 중 하나는 그들의 특성이 알려지지 않은 대상에게 인센티브를 설계하는 것이다. 디지털 음악 플랫폼이 새로운 로열티 모델을 도입하려고 할 때, 각 독립 아티스트는 플랫폼에 대해 알려진 정보가 없는 개인 유형(private type)을 가지고 있다. 플랫폼은 작은 샘플 집합에서 시범 프로그램을 실행하여 여러 새로운 수익 공유 계약을 테스트하고 그 결과 다운로드 및 스트리밍 참여 데이터를 수집한다. 이 샘플을 기반으로 플랫폼은 전체 아티스트 커뮤니티의 동기를 부여하여 이윤을 최적화하는 개선된 로열티 모델을 학습하려고 한다.
이 시범 프로그램은 최근의 주요 연구에서 제시한 샘플 기반 학습 프레임워크의 예로, 이를 통해 유형이 완전히 파악된 대상들로부터 유한 데이터셋으로부터 최적 계약을 설계할 수 있다. 이 프레임워크는 다른 확립된 모델과 함께 다양한 시나리오에 적합하다.
더 공식적으로 말하면, 환경은 에이전트가 취할 수 있는 $`n`$ 개의 행동 집합과 $`m \ge 2`$ 개의 가능한 결과로 구성된다. 각 결과 $`j`$에는 플랫폼이 받는 고정 보상 $`r_j \ge 0`$이 있다. 에이전트는 개인 유형(private type) $`\theta=(f,c)`$를 가지고 있는데, 이는 플랫폼에 알려지지 않은 정보이다.
플랫폼은 계약을 설계하여 최적의 기대 수익을 얻으려고 한다. 우리의 주요 결과는 선형 계약 클래스에 대한 학습 샘플 복잡도를 정확히 캐릭터라이즈하는 것이다.
1. **이론적 진전**: 이 연구는 최근의 알고리즘 계약 이론에서 중요한 진보를 이루었다. 특히, 선형 계약에 대한 학습 샘플 복잡도를 정확히 캐릭터라이즈하는 것은 계약 설계 분야에서 중요한 발걸음이다.
서론
알고리즘 계약 이론에서 중앙 문제 중 하나는 그들의 특성이 알려지지 않은 에이전트에게 인센티브를 설계하는 것이다. 디지털 음악 플랫폼이 새로운 로열티 모델(계약)을 도입하려고 할 때, 플랫폼에 있는 각 독립 아티스트는 창작 과정과 노력의 비용을 반영하는 개인 유형(private type) $`\theta=(f,c)`$를 가지고 있다. 이 개인 유형은 플랫폼에 알려지지 않은 정보이다. 플랫폼이 사이트 전체의 로열티 모델 변경을 실시하기 전, 그들은 작곡가의 작은 샘플 집합에서 시범 프로그램을 실행한다. 이 프로그램에서는 여러 새로운 수익 공유 계약을 테스트하고 이를 통해 발생하는 노래 다운로드 및 스트리밍 참여에 대한 세부 데이터를 수집한다. 이러한 샘플 기반으로 플랫폼은 전체 아티스트 커뮤니티의 동기를 부여하여 이윤을 최적화하는 개선된 로열티 모델을 학습하려고 한다.
이 “시범 연구"는 최근 주요 연구에서 형식화한 시나리오의 예이다. 이를 통해 유형이 완전히 파악된 대상들로부터 유한 데이터셋으로부터 최적 계약을 설계할 수 있는 샘플 기반 학습 프레임워크를 제시한다. 이 프레임워크는 문헌에서 확립된 다른 모델들과 함께 다양한 시나리오에 적합하다.
더 공식적으로, 다음과 같은 환경을 고려하자. 에이전트가 취할 수 있는 $`n`$ 개의 행동 집합은 $`\{1,\dots,n\}`$로 인덱싱되며, $`m \ge 2`$ 개의 가능한 결과는 $`\{1,\dots,m\}`$으로 인덱싱된다. 각 결과 $`j`$에는 플랫폼이 받는 고정 보상 $`r_j \ge 0`$이 있다. 특히 $`r_1=0`$이고 최소한 하나의 결과에 대해 양의 보상이 있는 것으로 가정한다.
에이전트는 두 구성 요소로 구성된 개인 유형(private type) $`\theta=(f,c)`$를 가지고 있는데, 이 정보는 플랫폼에게 알려지지 않은 상태이다:
-
생성 함수 $`f=(f_{1},\ldots,f_{n})`$, 각각의 $`f_i`$는 $`m`$ 개의 결과에 대한 확률 분포이다. 구체적으로, 에이전트가 행동 $`i`$를 선택하면 결과 $`j`$가 관찰되는 확률은 $`f_{i,j}`$이다.
-
비용 벡터 $`c=(c_{1},\ldots,c_{n})`$, 각각의 $`c_i \geq 0`$는 에이전트가 행동 $`i`$를 취하는 데 필요한 개인 비용을 나타낸다. 우리는 행동 $`1`$을 무비용 외부 옵션으로 가정한다, 즉 $`c_1=0`$이다.
플랫폼은 계약을 설계하는데, 이는 $`t=(t_{1},\ldots,t_{m})`$에서 각각의 $`t_j \ge 0`$를 포함한 지불 벡터이다. 만약 결과 $`j`$가 발생하면 에이전트에게 $`t_j`$가 지급된다. 계약 $`t`$가 주어졌을 때, 유형 $`\theta`$의 에이전트는 자신의 기대 유틸리티를 최대화하는 행동 $`i \in [n]`$을 선택한다:
\begin{equation}
\label{eq:agent_utility}
u_{a}(\theta, t, i) = \textstyle\sum_{j=1}^{m}f_{i,j}t_{j} - c_{i}
\end{equation}
플랫폼의 유틸리티는 에이전트가 취한 행동에 따라 다르다. 에이전트가 플랫폼에게 유리하게 동점을 깨고, 에이전트 자신이 최적화하는 행동들 중에서 (즉, [eq:agent_utility]를 최대화하는) 플랫폼의 유틸리티를 최대화하는 행동 $`i^{*}(\theta, t)`$을 선택한다고 가정한다. 따라서 유형이 $`\theta`$인 에이전트에 대한 플랫폼의 유틸리티는 다음과 같다:
\begin{equation*}
u_p(\theta, t) = \textstyle\sum_{j=1}^{m}f_{i^{*}(\theta, t), j}(r_{j} - t_{j})
\end{equation*}
마지막으로 학습 목표를 정의한다. 플랫폼은 에이전트 유형의 미지의 분포 $`\mathcal{D}`$에 대해 기대 유틸리티 $`U_p(\mathcal{D}, t) = \mathbb{E}_{\theta \sim \mathcal{D}}[u_p(\theta, t)]`$을 최대화하는 계약 $`t`$를 찾는 것이 목표이다. 여기서 플랫폼은 데이터셋 $`\rS=\{\theta_{1},\ldots,\theta_{s}\}`$에 대한 $`s`$ 개의 독립 표본을 가지고 있으며, 각 샘플 $`\theta_i \in \rS`$에 대해 플랫폼에게는 유형 전체(즉, 생성 함수 $`f^{(i)}`$와 비용 벡터 $`c^{(i)}`$)가 주어지므로 플랫폼은 에이전트의 행동을 시뮬레이션하고 어떤 후보 계약 $`t`$에 대해 $`u_p(\theta_i, t)`$를 계산할 수 있다.
위에서 설명한 기본 프레임워크는 플랫폼에게 전체 유형 샘플을 제공한다. 그러나 우리는 약간 더 약한 가정을 할 것이다. 즉, 플랫폼은 특정 계약 $`t`$에 대한 경험적 유틸리티를 계산하는 오라클 접근만 가지고 있다는 가정이다. 이러한 가정은 기본 가정보다 약하지만 여전히 오프라인 설정을 포착한다.
이 프레임워크 내에서, 연구는 학습 계약 클래스의 샘플 복잡도와 그 의사차원 사이에 연결점을 제시했다. 이 연구는 일반적인 분석 도구를 제공했지만, 선형 계약이라는 가장 기본적인 계약 클래스에 대한 정확한 샘플 복잡도는 아직 해결되지 않았다.
이 논문에서는 $`\varepsilon`$-근사 최적 선형 계약을 학습하는 샘플 복잡도를 정확히 캐릭터라이즈한다. 구체적으로, 우리는 간단한 경험 유틸리티 극대화(EUM) 알고리즘이 선형 계약 중에서 경험 유틸리티를 최대로 하는 계약을 선택하여 $`1-\delta`$ 확률로 가감 $`\varepsilon`$ 오차 내에서 최적의 계약을 제공함을 보여준다.
이 논문의 주요 결과는 다음과 같은 정리이다.
정리 1 (주요 결과). *미지의 에이전트 유형 분포 $`\mathcal{D}`$, 보상 벡터 $`r\in[0,1]^{n}`$, 그리고 주어진 $`\varepsilon>0`$와 $`\delta\in(0,1)`$에 대해, $`s\geq3456 \ln{(4/\delta )}/\varepsilon^{2}`$일 때, $`\rS\sim \cD^{s}`$에 대해 확률이 적어도 $`1-\delta`$인 경우, 모든 선형 계약 $`\alpha\in\cC_{\textit{linear}}`$에 대해:
\begin{equation*}
|U_p(\mathcal{D}, \alpha) - U_p(\rS, \alpha)| \leq \varepsilon.
\end{equation*}
```*
</div>
우리의 주요 정리는 선형 계약 클래스에 대한 경험적 유틸리티와 기대 유틸리티 사이의 차이를 학습하는 균일한 수렴 경계를 제공하며, 샘플 복잡도는 행동 $`n`$과 결과 $`m`$의 개수에 독립적이다. 이는 플랫폼이 행동의 수 $`n`$을 알지 못하고, 행동 및 결과의 수가 클 수 있다는 가정 아래에서 바람직하다.
또한 균일성은 플랫폼에게 최적 계약의 유틸리티를 가감 $`\varepsilon`$ 요인으로 학습하는 것뿐만 아니라 두 개의 계약을 비교하고 어느 것이 더 나은지를 $`\varepsilon`$ 정밀도로 평가할 수 있게 한다.
또한, 이 경계는 상수까지 동일하게 하나의 계약에 대한 경험 유틸리티가 예상 유틸리티로부터 $`\varepsilon`$-근사하는 것을 보장하기 위한 샘플 복잡도와 같다. 따라서 모든 (또는 한 개) 계약에 대한 경험 유틸리티가 예상 유틸리티로부터 $`\varepsilon`$-근사하려면 상수 요인까지 동일한 수의 샘플이 필요하다.
위의 경계에서 간단한 EUM 알고리즘이 최적 샘플 복잡도를 달성한다는 부록이 따른다.
<div id="cor:erm" class="corollary">
**부록 2** (EUM 최적 샘플 복잡도). *미지의 에이전트 유형 분포 $`\mathcal{D}`$, 보상 벡터 $`r\in[0,1]^{n}`$, 그리고 주어진 $`\varepsilon>0`$와 $`\delta\in(0,1)`$에 대해, $`s\geq 6912 \ln{(4/\delta )}/\varepsilon^{2}`$일 때, 확률이 적어도 $`1-\delta`$인 경우 <a href="#alg:erm_linear" data-reference-type="ref+label" data-reference="alg:erm_linear">[alg:erm_linear]</a> (경험 유틸리티 극대화 알고리즘)은 다음과 같은 계약을 반환한다:
``` math
\begin{equation*}
U_{p}(\cD,\hat{\alpha})\geq \textstyle\sup_{\alpha\in\cC_{\textit{linear}}}U_{p}(\cD,\alpha) - \varepsilon.
\end{equation*}
그리고 $`\hat{\alpha}`$는 $`u_{p}(\rS,\cdot)`$ 오라클에 대해 $`O(1/\varepsilon)`$ 개의 쿼리를 통해 찾을 수 있다.*
우리의 결과는 이전 연구에서 제시한 오프라인 설정에서 최적 샘플 복잡도로 균일한 수렴과 $`\varepsilon`$ 오차 내에서 최적 계약 학습에 대한 첫 번째 결과라는 점에서 중요하다. 또한 우리는 경계의 상수를 최적화하지 않았음을 언급한다.
관련 연구
계약 연구는 경제학에서 풍부한 역사를 가지고 있으며, Oliver Hart와 Bengt Holmström의 주요 기여로 인해 2016년 노벨 경제학상이 수여되었다. 계약 설계는 경제학과 컴퓨터 과학의 교차점에서도 큰 관심을 받았으며, 알고리즘 계약 설계의 등장에 따라 여러 가지 다른 설정들과 측면들을 포함하고 있다.
이전 연구와 비교
오프라인 설정에서는 두 개의 상한이 제시된다: 정리 4.1(결합 정리 3.7)과 정리 5.4. 이러한 정리는 $`O((\ln{(1/\varepsilon)}+\ln{(1/\delta )})/\varepsilon^{2})`$ 또는 $`O((\ln{(n )}+\ln{(1/\delta )})/\varepsilon^{2})`$ 샘플이 필요하다는 것을 보여준다. 이 두 경계에 대한 몇 가지 주석을 덧붙일 것이다.
두 경계 모두 계약 클래스의 의사차원 $`d`$를 상한으로 설정하고 그 결과 정리 3.7에 따라 샘플 복잡도가 $`O((d+\ln{(1/\delta )})/\varepsilon^{2})`$임을 보여준다.
첫 번째 경우에서, 의사차원의 경계는 선형 계약 공간 자체가 아니라 에이전트 유형에 대한 이산화된 공간에 대한 것이며 이를 통해 최적의 계약을 잘 근사할 수 있다. 이것은 이산화된 공간의 크기를 $`O(1/\varepsilon)`$로 경계하고, 그 결과 의사차원은 이산화된 공간 내 계약의 개수의 로그인 $`O(\ln{(1/\varepsilon)})`$으로 경계된다. 따라서 첫 번째 경계는 선형 계약 클래스를 균일하게 학습하는 샘플 복잡도에 대한 경계가 아니라, 에이전트 유형의 전체 정보 대신 $`\rS`$에 대한 경험 유틸리티 오라클을 사용하여 EUM 알고리즘이 최적 계약을 가감 $`\varepsilon`$ 오차 내에서 학습하는 데 필요한 샘플 복잡도를 제공한다.
두 번째 경계는 선형 계약 클래스의 의사차원에 대한 것이며 이를 $`O(\ln{(n )})`$로 상한을 설정할 수 있다. 이는 행동의 개수에 대해 이루어진 것이다.