비현실적 언어 식별·생성의 아그노스틱 이론과 최적 속도
초록
본 논문은 기존 연구가 가정하던 “실현 가능성”(데이터가 미리 정해진 언어 집합 중 하나에서 생성된다는 가정)을 완전히 제거하고, 임의의 분포에서 샘플이 추출되는 아그노스틱 설정을 제안한다. 언어 식별과 생성 각각에 대해 새로운 오류 정의(IdErr, GenErr)를 도입하고, 언어 집합 내 최소 오류를 실제로 달성하는 언어가 존재할 경우 식별 오류를 거의 지수적으로 감소시킬 수 있음을 보인다. 반대로 그 조건이 깨지면 속도가 임의로 느려질 수 있다. 생성 문제에서는 아무런 구조적 가정 없이 일반적인 분포에 대해 의미 있는 오류를 보장할 수 없으며, 유한한 언어 집합에 대해 지원이 어느 한 언어를 포함한다는 약한 조건만으로도 지수적 오류 감소가 가능함을 증명한다.
상세 분석
이 논문은 언어 학습을 두 가지 기본 과제로 구분한다. 첫 번째는 언어 식별(identification) 로, 주어진 양의 예시 집합 S⊆L 로부터 원래 언어 L 자체를 정확히 복원하는 것이다. 두 번째는 언어 생성(generation) 으로, 동일한 예시 집합으로부터 새로운 미관측 문자열 z∈L 을 만들어 내는 문제다. 기존 문헌은 대부분 실현 가능성(Realizability) 가정, 즉 데이터가 미리 정의된 언어 컬렉션 C={L₁, L₂,…} 중 하나의 지원(support) 위에서 i.i.d. 혹은 적대적(adversarial) 방식으로 생성된다고 전제한다. 이러한 가정 하에서는 온라인 식별이 일부 언어 클래스에 대해 가능하고, 생성은 거의 모든 가산 언어 컬렉션에 대해 tractable 하다는 결과가 알려져 있다.
본 연구는 이 가정을 완전히 포기하고, 아그노스틱(agnostic) 설정을 도입한다. 즉, 데이터는 임의의 분포 D 위에서 추출되며, 그 지원이 어떤 L∈C 와도 일치하지 않을 수 있다. 이를 위해 두 새로운 오류 지표를 정의한다.
- IdErr(A,D,C,n) 은 알고리즘 A가 선택한 언어 L_A 가 D 로부터 샘플링된 문자열을 포함하지 않을 확률과, 컬렉션 C 내 모든 언어 중 D 에서 가장 작은 오류를 보이는 언어의 오류 차이를 평균한 값이다.
- GenErr(A,D,C,n) 은 알고리즘 A가 생성한 문자열이 D 의 지원(supp(D)) 에 속하지 않을 확률(단, 입력 샘플 S 를 재사용하지 않음)이다.
식별 측면에서 핵심 정리는 다음과 같다. 만약 어떤 L*∈C 가 **infₗ∈C P_{x∼D}
댓글 및 학술 토론
Loading comments...
의견 남기기