Evaluation de lexiques syntaxiques par leur integartion dans lanalyseur syntaxiques FRMG

Reading time: 5 minute
...

📝 Original Info

  • Title: Evaluation de lexiques syntaxiques par leur integartion dans lanalyseur syntaxiques FRMG
  • ArXiv ID: 1111.3152
  • Date: 2013-06-01
  • Authors: : Sagot, B.; Tolone, C.; Danlos, L.; Fort, M.; Constant, J.-M.; Thomasset, A.; Éric de La Clergerie, E.

📝 Abstract

In this paper, we evaluate various French lexica with the parser FRMG: the Lefff, LGLex, the lexicon built from the tables of the French Lexicon-Grammar, the lexicon DICOVALENCE and a new version of the verbal entries of the Lefff, obtained by merging with DICOVALENCE and partial manual validation. For this, all these lexica have been converted to the format of the Lefff, Alexina format. The evaluation was made on the part of the EASy corpus used in the first evaluation campaign Passage.

💡 Deep Analysis

Figure 1

📄 Full Content

De nombreux analyseurs du français ont été développés ces dernières années et il importe de les évaluer afin d'améliorer leur précision et leur robustesse sur des corpus à grande échelle. Ceci est en effet de nature à améliorer l'exploitation des annotations syntaxiques produites, d'une part pour enrichir, améliorer voire créer des ressources linguistiques et d'autre part en vue d'applications concrètes comme l'extraction d'informations ou la fouille de textes.

L’objectif de ce travail est d’évaluer divers lexiques syntaxiques par le biais de l’évaluation de l’analyseur syntaxique FRMG (de La Clergerie, 2005a ; Thomasset & Éric de La Clergerie, 2005) lorsqu’il est couplé à chacun d’entre eux. Il s’agit donc d’une évaluation orientée-tâche (task-based) de ces ressources. Nous avons évalué le Lefff dans sa version 3.0 (Sagot, 2010), ainsi que trois ressources obtenues en remplaçant (presque) toutes les entrées verbales du Lefff par d’autres ressources, à savoir successivement le lexique LGLex (Tolone, 2011) construit à partir des tables du Lexique-Grammaire du français, le lexique DICOVALENCE (van den Eynde & Mertens, 2006), ainsi qu’une nouvelle version des entrées verbales du Lefff obtenues à partir de sa fusion avec DICOVALENCE et d’un travail de validation manuelle. Pour cela, tous ces lexiques ont été convertis au format du Lefff, le format Alexina. L’évaluation a été faite sur la partie du corpus EASy utilisé lors de la première campagne d’évaluation Passage (Hamon et al., 2008).

Nous commençons par détailler ces quatre ressources lexicales, qu’il s’agisse de lexiques déjà existants (le Lefff, LGLex ou DICOVALENCE) ou de la nouvelle version du Lefff (section 2.2). Nous présenterons ensuite l’analyseur FRMG et la campagne d’évaluation Passage à la section 3, avant de détailler les résultats obtenus par FRMG lorsqu’on lui fait rejouer cette campagne en le couplant successivement avec les quatre lexiques décrits à la section 4. Nous montrons en particulier que pour l’instant, c’est encore la version standard du Lefff qui donne les meilleurs résultats. Enfin, nous discutons à la section 5 de la fouille d’erreurs réalisée sur les sorties produites afin d’identifier les entrées lexicales verbales susceptibles d’expliquer la baisse de précision obtenue par les autres ressources par rapport au Lefff, puis nous concluons à la section 6.

2.1. Lefff, LGLex et DICOVALENCE Nous avons utilisé les données lexicales issues de trois ressources électroniques librement disponibles :

-Lefff (Lexique des formes fléchies du français) 1 : Ce lexique est une ressource morphologique et syntaxique à large couverture du français, qui couvre l’ensemble des catégories (Sagot, 2010). Le Lefff, développé dans le formalisme lexical Alexina, est orienté vers une utilisation dans des outils de traitement automatique, mais cherche à préserver une pertinence linguistique. Il est ainsi utilisé par exemple dans des analyseurs à grande échelle pour différents formalismes (LFG, LTAG, et d’autres). Des travaux récents en ont amélioré la qualité et la couverture pour certaines classes d’entrées (constructions impersonnelles, constructions pronominales, adverbes en -ment, verbes en -iser et -ifier), notamment par comparaison et fusion avec d’autres ressources lexicales comme DICOVALENCE et les tables du Lexique-Grammaire (Sagot & Danlos, 2007 ;Sagot & Fort, 2007 ;Danlos & Sagot, 2008 ;Sagot & Fort, 2009).

-LGLex 2 : Ce lexique syntaxique a été construit à partir des tables du Lexique-Grammaire du français en un format textuel et XML (Constant & Tolone, 2010), après un travail de mise en cohérence et d’explicitation des propriétés syntaxiques dans les tables du Lexique-Grammaire (Tolone, 2011). Grâce à une définition formelle ou à une interprétation dynamique de toutes les constructions, la version texte du lexique LGLex a ensuite été convertie au format Alexina (Tolone & Sagot, 2011). Cela a pu être fait pour l’ensemble des verbes (issus des 67 tables regroupant 13 867 entrées, dont 5 738 entrées distinctes) et des noms prédicatifs (issus des 78 tables regroupant 12 696 entrées, dont 8 531 entrées distinctes).

-DICOVALENCE 3 : Le dictionnaire de valence verbale DICOVALENCE (van den Eynde & Mertens, 2006) est une ressource informatique qui répertorie les cadres de valence de plus de 3 700 verbes simples du français, soit plus de 8 000 entrées. Le dictionnaire explicite en outre certaines restrictions sélectionnelles, certaines formes de réalisation (pronominales, phrastiques) des termes, la possibilité d’employer le cadre valenciel dans différents types de passif, etc. La particularité essentielle du dictionnaire réside dans le fait que les informations valencielles sont représentées selon les principes de « l’Approche Pronominale » en syntaxe (Blanche-Benveniste et al., 1984). Pour chaque place de valence (appelée paradigme) le dictionnaire précise le paradigme de pronoms qui y est associé et qui couvre en intention les lexicalisations pos

📸 Image Gallery

cover.png

Reference

This content is AI-processed based on open access ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut