데이터 프로그래밍 대규모 학습 데이터셋을 빠르게 만들기

이 논문은 대규모 지도 학습에 필수적인 라벨링 데이터 확보 비용을 낮추기 위해 ‘데이터 프로그래밍(Data Programming)’이라는 새로운 약한 감독 패러다임을 제안한다. 데이터 프로그래밍에서는 도메인 전문가가 라벨링 함수를 작성한다. 라벨링 함수 λ_i는 입력 x에 대해 –1, 0, 1 중 하나를 반환하며, 0은 해당 함수가 라벨을 제공하지 않음을 의미한다. 이러한 함수들은 기존의 지식베이스 매핑, 정규표현식 기반 패턴, 혹은 휴리스틱 결합 등 다양한 형태를 가질 수 있다. 라벨링 함수들은 서로 겹치거나 충돌할 수 있으며, 정확도와 커버리지가 서로 다르다. 첫 번째 핵심 단계는 라벨링 함수들의 출력을 생성 모델로 정형화하는 것이다. 가장 단순한 경우, 각 함수는 실제 라벨 Y에 대해 독립적으로 동작한다는 가정 하에, 라벨을 출력할 확률 β_i와 정확도 α_i를 파라미터화한다. 이때 관측된 라벨링 결과 Λ와 잠재 라벨 Y의 결합 확률 µ_{α,β}(Λ, Y)를 정의하고, 비지도 데이터 S에 대해 로그우도를 최대화함으로써 (α̂, β̂)를 추정한다. 논문은 이 과정이 SGD로 효율적으로 해결될 수 있음을 보이며, 파라미터 추정이 충분히 정확하면 이후 단계에서 라벨링 노이즈를 보정할 수 있음을 증명한다. 두 번째 단계는 추정된 생성 모델을 이용해 ‘노이즈‑인식’ 손실 함수를 구성하는 것이다. 라벨링 함수가 제공한 Λ와 추정된 파라미터를 조건부 확률 분포로 사용해, 잠재 라벨 Y에 대한 로그‑손실의 기대값을 계산한다. 이 기대 손실은 실제 라벨이 없더라도 라벨링 함수들의 출력만으로 정의될 수 있다. 따라서 판별 모델 w (예: 로지스틱 회귀, LSTM 등)는 L_{α̂,β̂}(w;S)= (1/|S|)∑_{x∈S} E_{Y∼µ_{α̂,β̂}}

데이터 프로그래밍 대규모 학습 데이터셋을 빠르게 만들기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기