기계 교수법: 기계 학습 시스템 구축을 위한 새로운 패러다임

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Machine Teaching: A New Paradigm for Building Machine Learning Systems
  • ArXiv ID: 1707.06742
  • 발행일: 2017-08-14
  • 저자: Patrice Y. Simard, Saleema Amershi, David M. Chickering, Alicia Edelman Pelton, Soroush Ghorashi, Christopher Meek, Gonzalo Ramos, Jina Suh, Johan Verwey, Mo Wang, and John Wernsing

📝 초록 (Abstract)

현재 머신러닝 시스템을 구축하는 과정은 깊이 있는 머신러닝 지식을 보유한 전문가들이 필요로 합니다. 이는 생성 가능한 머신러닝 시스템의 수를 크게 제한하고 있으며, 조직들의 요구와 이러한 시스템을 구축할 수 있는 능력 사이에 불일치를 초래했습니다. 우리는 이처럼 증가하는 머신러닝 시스템의 수요를 충족하기 위해서는 더 많은 사람들이 기계를 가르칠 수 있어야 한다고 믿습니다. 이를 위해, 기계를 가르치는 과정을 쉽고 빠르며 무엇보다 모든 사람이 접근할 수 있도록 만들어야 합니다.

머신러닝은 새로운 알고리즘을 만들고 “학습자"의 정확도를 향상시키는데 중점을 두지만, 머신 튜터링 분야는 “교사”의 효율성에 초점을 맞춥니다. 머신 튜터링은 소프트웨어 엔지니어링과 프로그래밍 언어의 원칙을 따르고 확장하는 새로운 패러다임입니다. 우리는 교사를 중심으로, 데이터와의 상호작용 및 상호작용과 시각화 기술 등 중요한 구성 요소에 중점을 두어야 합니다.

본 논문에서는 머신 튜터링 분야에 대한 우리의 입장을 제시하고 기본적인 머신 튜터링 원칙을 설명합니다. 또한, 머신러닝 알고리즘에 대한 지식과 가르치는 과정을 분리함으로써 혁신을 가속화하고 수백만 개의 새로운 용도로 머신러닝 모델을 활용할 수 있음을 제시합니다.

💡 논문 핵심 해설 (Deep Analysis)

This paper introduces a new paradigm called "Machine Teaching" to simplify the process of building machine learning systems and make it accessible to more people. The traditional approach requires deep expertise in machine learning, which limits the number of systems that can be built and leads to a mismatch between demand and supply capabilities. By focusing on teachers and their interaction with data rather than just improving algorithms, Machine Teaching aims to increase productivity and enable broader access to developing machine learning models.

The core idea is to decouple the knowledge about machine learning algorithms from the teaching process itself, allowing non-experts to build useful models. This shift emphasizes tools and techniques that improve the teacher’s efficiency and reduces the complexity of model building. Key features include version control, concept decomposition, semantic data exploration, and an expressive teaching language.

The significance of this approach lies in its potential to democratize machine learning by making it easier for a wider range of individuals and organizations to develop models. This can lead to more innovation across various fields and help bridge the gap between demand and supply capabilities in machine learning solutions.

📄 논문 본문 발췌 (Translation)

# 서론

머신러닝(ML) 모델에 대한 수요가 공급을 훨씬 초과하고 있습니다. 컴퓨터로 자동화하려는 일반적인 이해를 필요로 하는 작업의 범주에는 명령어 해석, 고객 지원, 또는 우리 behalf에서 작업을 수행하는 에이전트 등이 포함됩니다. 이러한 분야, 도메인 및 작업의 조합은 고정밀도 머신러닝 모델을 구축할 수 있는 방대한 기회를 제공합니다. 예를 들어, 우리는 텔레비전을 제어하기 위한 음성 명령을 이해하는 모델을 만들거나 식당 예약 에이전트를 만드는 데 관심있을 수 있습니다.

머신러닝 시스템 구축의 큰 공간을 열기 위해서는 더 많은 머신 교사들을 늘리는 것이 중요합니다. 이를 위해 가르치는 과정을 쉽고, 빠르며 무엇보다 모든 사람들이 접근할 수 있도록 만들어야 합니다.

현재 머신러닝 커뮤니티의 대부분은 주어진 라벨 데이터 세트에 대한 “학습자”(머신러닝 알고리즘)의 정확도를 향상시키기 위해 새로운 알고리즘을 만들고 있습니다. 반면, 머신 교육(MT) 분야는 학습자가 주어졌을 때의 “교사"의 효율성에 초점을 맞춥니다. 머신 교육의 성능 지표는 생산성, 해석 가능성, 견고성 및 문제의 복잡도나 기여자 수와 함께 확장성과 같은 인간 비용에 대한 상대적 성능을 측정합니다.

기존 머신러닝에서는 모델 구축 생산성을 저해하는 여러 문제가 있습니다. 이러한 문제 중 하나는 개념 진화로, 교사의 목표 클래스에 대한 근본적인 정의와 세부사항이 시간이 지남에 따라 점진적으로 형성되고 개선되는 과정입니다. 라벨 노이즈나 일관성이 없는 것은 기존 레이블이 정의하는 목표 개념이 고정되어 있다는 가정을 하는 전통적인 머신러닝에 해를 입힐 수 있습니다. 실제로, 개념 정의, 스키마 및 라벨은 새로운 드문 양성 예들이 발견되거나 교사가 마음을 바꾸는 경우 변경될 수 있습니다.

예를 들어, “정원 웹 페이지” 이진 분류 작업에서 머신러닝 알고리즘과 특징 집합이 고정되어 있다고 가정하면, 초기에는 식물학 정원 웹 페이지를 정원 개념의 양성 예로 표시할 수 있지만 나중에 이러한 예들을 부정적 예로 결정할 수도 있습니다. 이러한 목표 개념이 진화함에 따라 예제를 다시 라벨링하는 것은 교사에게 큰 부담을 줍니다.

이러한 상황에서, 하위 개념으로 라벨링은 머신러닝 알고리즘에는 이점이 없지만 교사를 돕는 데 도움이 될 수 있습니다. 하위 개념의 조작은 일정 시간(즉, 레이블 수에 의존하지 않음) 내에서 가능하며, 교사의 의미적 결정을 문서화하여 의사소통 및 협업이 가능합니다.

새로운 학문의 필요성

2016년 마이크로소프트의 내부 컨퍼런스(TechFest)의 “어떻게 우리는 머신러닝 시스템을 구축하고 유지할 수 있을까?” 패널에서, 호스트는 참가자들에게 머신러닝 모델을 제작하는 상황에서 가장 두려운 것이 무엇인지 물었습니다.

“…[…] 버전 관리. 데이터 버전 관리. 모델 재생산 능력. 데이타나 사람이나 모델이 사라질 경우, 이를 재생산할 수 없게 될 것… 나는 이런 일을 벙크에서 수백 번 본 적이 있어요. 그리고 매일 보곤 하죠. 예를 들어, 우리는 좋은 모델을 가지고 있었어요. 이제 이를 조정하고 이해해야 해요. 그러다 보면… 이제 우리가 다시 재생산하지 못하겠어요. 이것이 제 가장 큰 악몽입니다!”

이 테스트imonial의 맥락에 따라, 제품 그룹에서 머신러닝 모델을 만드는 과정은 다음과 같습니다:

  1. 문제 소유자가 데이터를 수집하고 라벨링 가이드라인을 작성하며 일부 라벨링 작업을 수행합니다.
  2. 문제 소유자는 큰 부분의 데이터(예: 50,000 개의 예제)를 라벨링하는 작업을 아웃소싱합니다.
  3. 문제 소유자가 라벨을 검토하고 가이드라인이 부정확하거나 표본화된 예들이 문제가 적합하지 않거나 충분하지 않은 경우가 발생하면, 다시 1단계로 돌아갑니다.
  4. ML 전문가는 알고리즘(예: 딥 신경망), 아키텍처(예: 층 수, 단위당 층 등)을 선택하고 목적 함수와 정규화 항, 교차 검증 세트 등을 결정합니다.
  5. 엔지니어는 기존 특징을 조정하거나 새로운 특징을 생성하여 성능을 개선합니다. 일부 트래픽에서 모델을 훈련 및 배포합니다.
  6. 시험 트래픽에서 시스템이 잘 작동하지 않는 경우, 다시 1단계로 돌아갑니다.
  7. 모델은 전체 트래픽에 배포됩니다. 모델의 성능을 모니터링하고 성능이 임계 수준 아래로 내려가는 경우 다시 1단계로 돌아가 수정합니다.

이러한 과정을 완료하는 데 일반적으로 수 주가 걸립니다. 시스템은 단계 7에서 몇 달 동안 안정적일 수 있습니다. 그러나 데이터 분포가 변경되었거나 경쟁사의 성능이 향상되어 요구 사항이 증가했을 때, 새로운 특징이 사용 가능하고 일부 기존 특징이 더 이상 사용되지 않을 경우, 문제 정의가 바뀌었거나 보안 업데이트 등으로 코드가 깨졌을 때 문제가 발생할 수 있습니다. 다양한 단계에서 문제 소유자, 머신러닝 전문가 또는 핵심 엔지니어는 다른 그룹이나 회사로 이동했을 수 있으며, 특징이나 라벨링은 버전화되거나 문서화되지 않았습니다.

여러 전문 분야의 여러 사람이 참여하기 때문에 기대치에 미치지 못하는 모델이 재훈련될 때 왜 그렇게 작동하지 않는지를 이해하려면 많은 노력과 조정이 필요합니다. 가장 나쁜 경우, 모델은 작동하고 있지만 예상대로 작동하는지 알 수 없으며 아무도 이를 종료할 책임을 지고 싶지 않을 수도 있습니다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키