Un syst`eme modulaire dacquisition automatique de traductions `a partir du Web

Reading time: 5 minute
...

📝 Original Info

  • Title: Un systeme modulaire dacquisition automatique de traductions a partir du Web
  • ArXiv ID: 0907.3781
  • Date: 2009-07-23
  • Authors: Researchers from original ArXiv paper

📝 Abstract

We present a method of automatic translation (French/English) of Complex Lexical Units (CLU) for aiming at extracting a bilingual lexicon. Our modular system is based on linguistic properties (compositionality, polysemy, etc.). Different aspects of the multilingual Web are used to validate candidate translations and collect new terms. We first build a French corpus of Web pages to collect CLU. Three adapted processing stages are applied for each linguistic property : compositional and non polysemous translations, compositional polysemous translations and non compositional translations. Our evaluation on a sample of CLU shows that our technique based on the Web can reach a very high precision.

💡 Deep Analysis

Deep Dive into Un syst`eme modulaire dacquisition automatique de traductions `a partir du Web.

We present a method of automatic translation (French/English) of Complex Lexical Units (CLU) for aiming at extracting a bilingual lexicon. Our modular system is based on linguistic properties (compositionality, polysemy, etc.). Different aspects of the multilingual Web are used to validate candidate translations and collect new terms. We first build a French corpus of Web pages to collect CLU. Three adapted processing stages are applied for each linguistic property : compositional and non polysemous translations, compositional polysemous translations and non compositional translations. Our evaluation on a sample of CLU shows that our technique based on the Web can reach a very high precision.

📄 Full Content

L'ambiguïté lexicale est un problème majeur pour les systèmes de traduction automatique ou de recherche d'informations interlingue. Par exemple, la traduction anglaise du terme français 1 Cet article est issu d'un travail de thèse soutenue en décembre 2008 sous la direction de Jean Véronis (LIF).

caisse est différente selon que l’usage concerne, entre autres, l’I STRUME T DE MUSIQUE (drum), la BA QUE (fund) ou la VALISE (case). L’absence de désambiguïsation lexicale pour la traduction automatique conduit à des résultats qui gênent souvent la compréhension. Ainsi, le système Systran2 traduit l’Unité Lexicale Complexe (ULC)3 caisse claire par clear case, ce qui est incompréhensible pour un anglophone. La co-occurrence caisse/claire constitue un indice désambiguïsateur très fort, qui, si elle était correctement enregistrée dans une base de données bilingue pourrait servir à générer des traductions correctes (caisse claire > snare drum). La polysémie est rendue faible dès que l’on envisage les unités lexicales selon leur cooccurrent (Yarowsky, 1993), (Shütze, 1998) et (Véronis, 2003). Les travaux existants ont proposé des méthodes d’acquisition de terminologie bilingue à partir de corpus parallèles (voir (Véronis, 2000)) ou comparables (citons, entre autres, (Rapp, 1999), (Fung, McKeown, 1997) (Fung, Yee, 1998) et (Morin et al., 2004)). Les corpus parallèles constituent des ressources rares tandis que les corpus comparables se limitent à un domaine de spécialité. Le Web, qui génère des besoins considérables en traduction, offre en même temps un réservoir gigantesque de données multilingues qui pourraient être exploitées afin d’acquérir les traductions correctes.

Les contraintes de Traduction Automatique d’ULC varient en fonction des caractéristiques linguistiques des unités sources. Si les constituants de l’ULC sont polysémiques, la tâche consiste à sélectionner la bonne traduction de chaque constituant parmi des traductions candidates. Si les constituants ne sont pas polysémiques, la tâche consiste à valider ou pas la combinaison de leurs traductions. Les traductions d’ULC peuvent être compositionnelles, c’est-à-dire basées sur une combinaison des traductions des constituants, ou non compositionnelles (traduction non littérale). Les travaux d’acquisition de traductions n’ont pas exploité ces indices linguistiques et ont proposé des méthodes globales. Nous appliquons un traitement automatique adapté à une typologie linguistique, pour la construction d’un système modulaire d’acquisition automatique de traductions d’ULC du français vers l’anglais, à partir du Web. Ce système s’appuie sur la détection automatique des propriétés linguistiques de traduction des ULC (compositionnalité, polysémie des constituants) et chaque module est consacré à un type de traduction. Les propriétés multilingues du Web sont exploitées afin de collecter et de filtrer automatiquement des traductions candidates (pages parallèles ou « partiellement » parallèles, fréquences, comparaison de mondes lexicaux). Notre système permet d’acquérir des ULC sources en français, à partir d’un corpus de pages Web et de proposer un système modulaire de traductions de ces ULC. La section 2 présente notre méthodologie, l’acquisition automatique des données et la méthode de traduction sur un échantillon aléatoire. La section 3 présente l’évaluation, les résultats et les perspectives.

Nous procédons à une extraction d’ULC en français à partir d’un corpus de pages Web étiqueté morpho-syntaxiquement. Nous analysons automatiquement leurs propriétés linguistiques via un dictionnaire électronique bilingue. Le module de traduction est sélectionné en fonction de ces caractéristiques. Après avoir décrit la méthode d’acquisition d’ULC sources (2.1), nous décrivons l’architecture du système et détaillons chaque module (2.2).

Nous collectons des pages Web associées à une liste aléatoire de noms simples extraits du dictionnaire électronique bilingue Collins Pocket (français-anglais) 4 . Ces pages sont nettoyées automatiquement et étiquetées via le logiciel Treetagger5 . Nous appliquons ensuite des filtres linguistiques et des filtres de fréquence. D’un point de vue linguistique, nous définissons les patrons morpho-syntaxiques répondant aux relations de dépendances syntaxiques recherchées (NOM-ADJECTIF ET NOM-de(d’)-NOM) en ne prenant en compte que les séquences contigües. En ce qui concerne la fréquence, nous posons des seuils fixes. La fréquence de l’ULC au sein de notre corpus doit être supérieure ou égale à 10. Ensuite, les ULC sont testées en tant que requêtes sur le moteur de recherche Yahoo et nous ne conservons que celles dont les nombres d’occurrences estimés par le moteur de recherche sont les plus élevés6 . Ce filtre peut provoquer du silence, mais nous posons volontairement un filtre élevé afin d’obtenir des ressources de très bonne qualité, sans aucune intervention humaine. Cette étape pourra être améliorée par la suite par des méthodes statistiques pl

…(Full text truncated)…

📸 Image Gallery

cover.png

Reference

This content is AI-processed based on ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut