활성 학습 기반 도달 집합 보정

본 논문은 학습 기반 도달 집합의 신뢰성을 확보하기 위해 활성 학습 전략을 적용한 보정 방법을 제안한다. 기존 Pick‑to‑Learn 알고리즘을 활성 학습에 맞게 변형한 Approximate Pick‑to‑Learn을 도입하고, 컨포멀 예측을 이용해 근사 오류와 실제 오류를 정량화한다. 시뮬레이션 드론 레이싱 사례에서 제안 기법이 샘플 효율성을 크게 향상시키고, 기존 방법보다 정확한 도달 집합을 제공함을 실증한다.

저자: Sampada Deglurkar, Ebonye Smith, Jingqi Li

활성 학습 기반 도달 집합 보정
본 논문은 학습 기반 도달 집합(reachable set) 계산에서 발생하는 모델 오차를 보정하고, 안전성을 보장하기 위한 새로운 활성 학습(active learning) 프레임워크를 제안한다. 전통적인 도달 집합 분석은 사전 정의된 동역학 모델과 제약 조건을 사용해 오프라인으로 수행되며, 계산 비용이 크고 실제 시스템과의 불일치가 발생할 수 있다. 최근에는 학습 기반 방법이 도달 집합을 근사하는데 활용되고 있지만, 학습된 모델이 경계 근처에서 오류를 범하면 안전 보장이 무너질 위험이 있다. 이를 해결하기 위해 기존 연구들은 샘플링을 통한 확률적 보정 방법을 제시했지만, 충분한 확률적 보장을 얻기 위해서는 많은 샘플이 필요했다. 저자들은 이러한 문제를 “활성 보정(active calibration)”이라는 관점으로 재구성한다. 핵심 아이디어는 보정에 필요한 샘플을 전체 상태 공간에서 무작위로 뽑는 것이 아니라, 현재 가설이 가장 큰 오류를 가질 가능성이 높은 지점을 선택하는 것이다. 이를 위해 먼저 Pick‑to‑Learn 알고리즘을 소개한다. Pick‑to‑Learn은 학습 알고리즘을 압축 스킴으로 변환해 일반화 경계를 제공하는 메타 알고리즘으로, 데이터 집합 D에서 현재 가설 h가 가장 큰 오류를 보이는 샘플을 반복적으로 선택해 압축 집합 Q를 구성한다. 그러나 활성 학습 상황에서는 라벨이 없는 상태 공간 샘플만 존재하고, 실제 오류 eₕ(z)를 직접 계산할 수 없기 때문에 기존 알고리즘을 그대로 적용할 수 없다. 이에 저자들은 Approximate Pick‑to‑Learn을 설계한다. 먼저 상태 공간 X에서 균등 분포로 n_D개의 무라벨 샘플 D={x₁,…,x_{n_D}}를 정의하고, 현재 가설 h와 활성 학습 파라미터 η에 따라 근사 오류 함수 aₕ,η(x)를 정의한다. aₕ,η는 모델 불확실성, 경계 근접도, 혹은 기타 휴리스틱을 반영할 수 있다. 그러나 aₕ,η가 실제 오류와 얼마나 일치하는지는 보장되지 않으므로, 별도의 캘리브레이션 셋 C={z_{C1},…,z_{C_{n_C}}}를 이용해 컨포멀 예측을 수행한다. 컨포멀 예측은 스코어 s(z)=|eₕ(z)−aₕ,η(zₓ)|/μₕ,η(zₓ) 의 (1−α) 분위수를 λ로 추정하고, 이를 통해 보정된 근사 오류 ˆeₕ,η(x)=aₕ,η(x)+λμₕ,η(x) 를 얻는다. 이 ˆeₕ,η는 확률적으로 실제 오류를 상한하는 특성을 가지며, 따라서 Pick‑to‑Learn 알고리즘이 요구하는 “가설‑의존적 전체 순서”를 근사한다. Algorithm 1은 다음과 같이 동작한다. 초기 가설 h₀와 파라미터 η₀를 설정하고, 현재 ˆeₕ,η가 임계값 ω보다 큰 가장 큰 x∈D를 선택한다. 선택된 x에 대해 실제 가치 Ṽ_π(x,T)를 시뮬레이션으로 얻어 라벨된 샘플 (x, Ṽ_π(x,T))을 Q에 추가하고, 학습 알고리즘 L을 통해 가설을 업데이트한다. 이후 캘리브레이션 셋 C를 사용해 λ를 재계산하고, 새로운 ˆeₕ,η를 구한다. 이 과정을 ˆeₕ,η≤ω가 모든 x∈D에 만족할 때까지 반복한다. 이때 압축 집합 Q의 크기가 증가함에 따라 정리 1이 보장하는 일반화 위험 ε̄(|Q|,δ) ≤ 1−δ 를 만족한다. 정리 1은 두 단계의 확률을 결합해, 캘리브레이션 셋 C에 대한 확률 1−α와 데이터 집합 D에 대한 확률 1−δ를 각각 고려함으로써, 적응형 샘플링 과정에서도 전체 위험이 제한됨을 증명한다. 실험에서는 12차원 상태 공간을 갖는 드론 레이싱 시뮬레이션을 사용한다. 두 대의 드론이 목표 게이트를 향해 경쟁하는 상황에서, ego 드론의 정책 ˜π와 가치 함수 ˜V를 기존 학습 방법(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기