머신 번역 데이터를 이용한 자연어 이해 시스템의 빠른 부트스트래핑 방법 선택

2026년 02월 10일

읽는 시간: 7 분

...

📝 원문 정보

Title: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language Understanding System
ArXiv ID: 1805.09119
발행일: 2018-05-24
저자: Judith Gaspers and Penny Karanasou and Rajen Chatterjee

📝 초록 (Abstract)

이 논문은 대규모 음성 제어 기기의 사용 사례를 위해 새로운 언어에 대한 자연어 이해(NLU) 시스템을 부트스트래핑하는 데 기계 번역(MT)을 활용하는 방법을 조사합니다. 이 연구는 새로운 언어에서 어노테이션 코퍼스를 얻는 데 필요한 비용과 시간을 줄이는 동시에 사용자의 요청에 충분한 커버리지를 제공하려는 목표를 가지고 있습니다. MT 데이터 필터링 방법과 언어별 후처리 방법을 통해 NLU 성능을 개선하는 발화들을 유지하는 방법을 조사하였습니다. 이러한 방법들은 약 1천만 개의 훈련 발화를 영어에서 독일어로 번역하는 대규모 NLU 작업에 실험되었습니다. 결과는 MT 데이터 사용이 문법 기반 및 자체 데이터 수집 베이스라인보다 크게 성능을 향상시켰으며, 수작업 노력을 크게 줄였다는 것을 보여주었습니다. 필터링과 후처리 접근 방식 모두 더 나은 결과를 제공하였습니다.

💡 논문 핵심 해설 (Deep Analysis)

This paper explores the use of machine translation (MT) data to quickly bootstrap a natural language understanding (NLU) system for a new language, specifically focusing on translating around 10 million training utterances from English to German in a large-scale NLU task. The research aims to reduce both time and effort required for annotating corpora needed for the development of an NLU model in a new language, while still achieving wide coverage over user requests.

The problem addressed is the significant human time and effort necessary to build and annotate data for each new language from scratch, which limits scalability when supporting multiple languages. The solution involves leveraging existing data through MT by filtering and post-processing translated sentences to improve NLU performance. Two main approaches were used: one based on semantic information retention during back-translation and another using MT system scores to filter out low-quality translations.

The authors found that the use of MT data significantly improved NLU performance over grammar-based and in-house data collection baselines, while also reducing manual effort. Filtering methods and post-processing techniques further enhanced these results by ensuring translated sentences retained semantic meaning and appropriate slot values.

This research is crucial for the development of voice-controlled devices like Amazon Alexa or Google Home that support multiple languages. It provides a scalable solution to bootstrapping NLU systems in new languages, making it possible to offer robust voice interaction capabilities across diverse linguistic environments with reduced time and cost.

📄 논문 본문 발췌 (Translation)

**소개** 최근 몇 년 동안 아마존 알렉사나 구글 홈과 같은 음성 제어 기기의 인기가 크게 증가하고 있습니다. 이 성공은 새로운 언어에 대한 NLU 모델을 포함한 관련 시스템의 빠른 부트스트래핑을 우선순위 목표로 만들어줍니다. 그러나 각 언어별로 NLU 모델을 처음부터 만들고 필요한 어노테이션 코퍼스를 수집하는 것은 주석 달기 전문가와 과학자 모두에게 많은 시간과 노력을 필요로 합니다. 또한, 이 절차는 증가하는 수의 언어 지원에 확장성을 제공하지 못합니다. 한편으로는 이미 지원되는 언어에 대한 데이터가 많이 존재합니다. 이러한 데이터를 활용하는 것은 명백한 해결책입니다. 본 논문에서는 기계 번역을 사용하여 새로운 대상 언어로 기존 데이터 소스를 번역하고 이를 통해 해당 대상 언어의 NLU 시스템을 부트스트래핑하는 방법을 조사합니다.

새로운 언어에 대한 데이터 수집 절차는 일반적으로 일부 문법 생성 데이터로부터 시작됩니다. 이 단계에서는 언어 전문가들이 첫 번째 작업 시스템이 필요한 좋은 커버리지를 제공하기 위해 문법을 작성하는 데 많은 시간과 노력을 소비합니다. 처음으로 이러한 시스템이 일정 성능 임계값에 도달하면 베타 사용자에게 공유할 수 있습니다. 이 단계는 실제 사용자의 쿼리를 포함한 더 많은 데이터를 생성할 수 있게 합니다. 모든 기존 데이터 소스는 높은 새로운 성능 임계값을 충족한 후 최종 고객에게 배포될 시스템을 훈련하는 데 사용됩니다. 마지막으로, 시스템이 고객에게 공개되면 고객 데이터가 제공됩니다. 베타 및 고객 데이터는 문법 생성 데이터보다 실제 사용자의 발화를 더 잘 모델링하며 따라서 우수하고 일반화 가능한 NLU 시스템 개발에 가치있는 자료입니다. 그러나 충분한 양의 어노테이션된 베타와 나중에는 고객 데이터를 확보하는 데는 많은 시간과 수작업 주석 달기 노력이 필요합니다. 또한 새로운 도메인과 기능에 대한 강건성을 갖추기는 매우 어렵고 광범위한 커버리지를 가진 데이터가 필요합니다.

기계 번역은 고객 데이터를 기존 자원에서 새로운 언어로 자동으로 번역하여 새로운 언어로의 빠른 확장을 위한 유용한 도구입니다. 이를 통해 사용자의 쿼리를 잘 처리하고 새로운 기능에 강건한 NLU 시스템을 개발하는 데 필요한 시간을 크게 줄일 수 있습니다. 본 논문에서는 미국 영어에 대한 약 1천만 개의 어노테이션 고객 데이터가 있는 대규모 시스템을 작업합니다. 우리는 이 코퍼스를 사용하여 새로운 언어의 훈련 데이터를 보강합니다. 특히, 기존의 미국 영어 훈련 데이터를 바탕으로 독일어 NLU 시스템 부트스트래핑에 우리의 기술을 적용하는 실험을 제시할 것입니다.

또한 “좋은” 번역을 선택하기 위한 방법을 조사합니다. 즉, NLU 성능을 개선하는 번역입니다. 검토된 방법들은 다음과 같은 범주에 속합니다. 첫째로 기계 번역(MT) 품질에 기반한 필터링 방법을 탐구하였습니다. 이 방법은 MT 모델이 생성하는 점수를 사용하여 번역의 품질을 할당합니다. 두 번째 방법은 필터링된 번역이 NLU 시스템이 요구하는 의미 정보를 유지하도록 함으로써 NLU 성능을 개선하기 위한 것입니다. 이 경우 후방 번역 작업 후의 NLU 레이블 일치가 필터링 기준으로 사용됩니다. 마지막으로, 번역 출력에 대한 언어별 후처리 방법을 적용하였습니다. 여기에는 새로운 언어 카탈로그를 사용한 데이터 재표본화가 포함됩니다. 또한 특정 슬롯 값들은 사용자가 일반적으로 번역하지 않는 경우 원래의 (EN) 버전을 유지하는 후처리 단계도 적용되었습니다.

이 논문은 다음과 같이 구성되어 있습니다. 섹션에서는 관련 문헌에 대한 개요를 제공합니다. 섹션에서는 새로운 언어 부트스트래핑 시 NLU 성능을 향상시키는 MT 필터링 방법을 제시합니다. 다음으로, 실험 설정을 자세히 설명하며 여기에는 사용된 NLU 및 MT 시스템과 단일언어 및 이중언어 코퍼스에 대한 세부 정보가 포함됩니다. 그다음 결과를 섹션에서 제시한 후 마지막 섹션에서는 논문을 마무리합니다.

방법 본 논문에서는 다른 언어의 NLU 시스템으로부터 훈련 데이터를 번역하여 새로운 언어에 대한 NLU 모델 부트스트래핑을 탐구합니다. 훈련 데이터는 음성 제어 어시스턴트에게 사용자의 요청을 대표하는 것입니다; 어노테이션은 MT 디코딩 중 소스에서 대상 발화로 전달됩니다. 번역 데이터의 품질에 따라 NLU 모델의 품질이 크게 좌우되므로 필터링 및 후처리 방법을 탐구하였습니다.

필터링 필터링 접근 방식의 목표는 “좋은” 번역을 선택하는 것입니다, 즉, 우리의 목표는 사용자 요청에 유용한 NLU 모델을 구축하기 위해 훈련 데이터에 유지할 주요 번역을 선택하는 것입니다. 우리는 MT 시스템 점수를 기반으로 한 필터링과 의미 정보를 기반으로 한 필터링 두 가지 접근 방식을 탐구하였습니다.

의미 정보를 기반으로 한 필터링 이 방법은 소스 발화의 의미 정보가 번역된 발화에 유지되는지 측정하여 NLU 훈련 데이터에서 잘못 번역된 기계 번역을 제거합니다. 특히, 다음과 같은 단계를 적용하였습니다: 1) 소스 발화를 NLU 모델로 레이블링 합니다. 2) 소스 발화를 번역합니다. 3) 번역된 발화를 첫 번째 단계의 결과와 정렬하여 레이블링 합니다. 4) 번역된 발화를 다시 원래 언어로 번역합니다. 5) 다시 번역된 발화를 NLU 모델로 레이블링 합니다. 6) 첫 번째 단계와 다섯 번째 단계에서 인식한 의도가 동일하면 대상 발화를 유지합니다.

작가는 일본어를 소스 언어, 영어를 대상 언어로 사용하여 이 접근 방식을 적용한 결과를 제시하였습니다. NLU 훈련 데이터에 대한 필터링을 통해 높은 음성 언어 이해 성능을 얻었습니다. 따라서 이 접근 방식은 일부 의미 정보가 유지된 번역을 유지하려는 목표를 가지고 있으며, 이를 통해 이러한 데이터로 트레이닝한 NLU 모델의 오류를 피할 수 있습니다. 우리는 이 접근 방식을 수정하여 적용하였습니다, 즉, 추가 정렬 단계 대신 MT 시스템으로 레이블을 전달합니다. 여기서는 MT 시스템에 대해 훈련된 정렬 모델을 활용합니다. 또한, 슬롯이 유지되는지 확인하고 NLU 모델의 신뢰도를 활용하여 의도가 유지되지만 NLU 모델의 신뢰도가 매우 낮은 발화($< 0.1$)는 제거하는 방법을 확장하였습니다.

MT 점수를 기반으로 한 필터링 이 접근 방식은 MT 시스템에서 반환되는 점수를 사용하여 훈련 데이터 세트에서 번역을 선택합니다. 인간에 의해 번역의 질을 판단하기 위한 주석 달기는 비용이 많이 드므로, 우리는 번역 점수를 상대적 품질 판단을 줄 수 있는 품질 지표로 사용하였습니다. 특히 각 도메인별로 번역 점수 기반으로 임계값을 계산하였습니다. 우리가 사용한 점수는 Moses MT 툴킷에서 제공하는 전체 번역 점수이며, 번역 모델, 언어 모델, 재정렬 점수 및 일부 단어 패널티를 결합한 점수입니다. 도메인별 임계값을 생성하기 위해 번역된 발화와 그 점수를 먼저 발화 길이로 정규화하였습니다. 그 후 각 도메인별 평균과 표준 편차를 계산하였습니다. 그런 다음 해당 점수가 임계값 이상인 번역을 선택하였습니다. 이 연구에서는 다양한 임계값($평균, 평균+표준편차, 평균+(0.5*표준편차), 평균+(0.25*표준편차)$)을 평가하였습니다.

언어별 후처리 번역 데이터의 슬롯 값 품질 개선을 목적으로 두 가지 전략을 탐구하였습니다.

슬롯 재표본화 데이터를 다른 언어에서 번역하면 소스 언어와 관련된 슬롯 값이 대상 언어 사용자의 요청과 잘 맞지 않을 수 있습니다. 예를 들어, 날씨 예보를 요청할 때 미국 고객은 독일 도시보다 미국 도시에 대해 더 자주 질문합니다. 따라서 “뉴욕의 날씨는 어때요?“라는 발화가 훈련 데이터에서 많이 나타나게 되며, 이는 번역 이후에도 계속됩니다. 그러나 이를 통해 독일 사용자의 언어 사용을 잘 모델링하지 못하며 통계적 모델의 성능이 저하될 수 있습니다. 소스 언어와 대상 언어 사이의 슬롯 값 불일치를 줄이기 위해, 해당 슬롯에 대한 대상 언어 카탈로그 항목으로 번역 데이터에서 슬롯 값을 대체하였습니다. 예를 들어 독일 도시 목록을 사용하여 “뉴욕"을 “베를린"으로 변경할 수 있습니다.

원본 슬롯 값 유지 기계 번역 시스템은 번역되어서는 안 되는 특정 슬롯 값을 잘못 번역할 수 있습니다. 예를 들어, “퀸의 ‘우리는 챔피언들’을 재생해줘"라는 발화에서 곡 제목 “우리는 챔피언들"과 밴드 이름 “퀸"은 번역되어서는 안 됩니다. 슬롯 값을 포함한 발화에 기존 슬롯 값을 적용할 수 있지만, 다른 접근 방식도 탐구하였습니다. 특히 이 접근 방식에서는 특정 슬롯 값(예: 아티스트 또는 곡 제목)을 원본 언어의 발화에서 유지하도록 번역된 발화를 후처리하였습니다.

📄 ArXiv 원문 PDF 보기

머신 번역 데이터를 이용한 자연어 이해 시스템의 빠른 부트스트래핑 방법 선택

📝 원문 정보

📝 초록 (Abstract)

💡 논문 핵심 해설 (Deep Analysis)

📄 논문 본문 발췌 (Translation)

Reference

목차

목차

📝 원문 정보

📝 초록 (Abstract)

💡 논문 핵심 해설 (Deep Analysis)

📄 논문 본문 발췌 (Translation)

Reference

검색 시작

검색 결과 없음