In this paper, we summerize the work done on the resources of Modern Greek on the Lexicon-Grammar of verbs. We detail the definitional features of each table, and all changes made to the names of features to make them consistent. Through the development of the table of classes, including all the features, we have considered the conversion of tables in a syntactic lexicon: LGLex. The lexicon, in plain text format or XML, is generated by the LGExtract tool (Constant & Tolone, 2010). This format is directly usable in applications of Natural Language Processing (NLP).
Depuis une dizaine d'années, un programme de description formalisée de la langue grecque pour l'analyse syntaxico-sémantique a permis de construire des tables du Lexique-Grammaire, en adoptant la méthodologie proposée par Gross (1975), Boons, Guillet et Leclère (1976a ;1976b). À l'heure actuelle, nous disposons de 17 tables de verbes simples (Yannacopoulou, 2005 ;Fista, 2007 ;Kyriacopoulou, 2010 ;Voskaki, 2011), 7 de noms prédicatifs (Sfetsiou, 2007), 16 tables d'adverbes (semi-)figés (Voyatzi, 2006 ;Voyatzi & Kakoyianni-Doa, 2010) et 2 tables de noms composés (Kyriakopoulou, 2011) 2 . Dans le cadre de notre recherche, nous avons pris en compte les tables des prédicats verbaux, le même travail étant en cours pour les noms prédicatifs.
Afin de procéder à l’analyse syntaxique des textes grecs, il faut intégrer les données du Lexique-Grammaire dans un analyseur syntaxique, ce qui nécessite la conversion des données dans un format exploitable en Traitement Automatique des Langues (TAL). Étant fortement inspirés des travaux déjà réalisés pour le français (Tolone, 2011), nous avons suivi la démarche suivante pour les prédicats verbaux : collecter toutes les tables ; créer une table des classes, afin d’y faire figurer les propriétés définitoires décrites dans la littérature et de rendre cohérent l’ensemble des tables, comme cela a été fait pour le français (Tolone, 2009 ;Tolone et al., 2010) ; créer un script interprétant chaque intitulé de la table des classes qui, exécuté par l’outil
LGExtract (Constant & Tolone, 2010), permet de convertir les tables au format LGLex.
Dans cet article, après la présentation des tables utilisées pour la construction du lexique syntaxique, nous allons lister les types de modifications effectuées lors de la mise en cohérence des propriétés. Par la suite, nous allons évoquer la création de la table des classes détaillée dans (Ioannidou & Kyriacopoulou, 2010) qui nous a permis d’ajouter les propriétés définitoires et d’assurer l’homogénéisation des intitulés des propriétés. Enfin, nous allons présenter le lexique syntaxique obtenu.
Les tables verbales ainsi que les propriétés définitoires vraies pour l’ensemble des entrées de chaque table sont les suivantes (la première construction étant la construction de base)3 :
L’ensemble des tables verbales représentent 3 966 emplois verbaux décrits. Notons que pour les verbes, certaines lignes peuvent donner lieu à plusieurs entrées puisque des préfixes sont également codés, ce qui totalise 4 252 entrées en comptant les verbes préfixés. Certes, ces tables sont loin de couvrir toute la langue grecque mais la constitution de cette ressource est en cours. Le nombre de ressources en Grèce n’étant pas très important, il s’agit de la plus grande ressource syntaxique à ce jour.
Pour procéder à la conversion du contenu de plusieurs tables en un seul fichier, il faut que l’ensemble des propriétés respecte les mêmes conventions de notation et de structure dans les différentes tables. De ce fait, nous avons effectué des modifications dans les tables à l’aide de la table des classes (voir section 4). Pour effectuer ces modifications, nous nous sommes basées sur la documentation des propriétés des verbes du français5 . Cependant, nous avons pris en compte les particularités de la langue grecque, en essayant d’être le plus proche possible des notations françaises. Par exemple, l’encodage particulier qu’exige la langue grecque nous a conduit à ne pas garder les accents français dans les notations. Nous avons adopté donc les mêmes symboles en enlevant les accents (Prép → Prep pour préposition6 ).
Les changements effectués concernent toutes les colonnes des tables, sauf celles des exemples et des traductions qui n’ont pas encore été traitées. Ils peuvent être regroupés en cinq catégories : les modifications typographiques, les modifications au niveau de la structure des intitulés, l’ajout des informations lexicales, la suppression des colonnes qui contenaient des propriétés définitoires ou non pertinentes et les changements purement linguistiques.
- Parmi les erreurs typographiques, on rencontre des fautes dues à l’alternance de caractères grecs et latins, ou de caractères majuscules et minuscules (ppv → Ppv). D’autres modifications au niveau typographique concernent la présence ou non d’espaces (N0=:Nhum → N0 =: Nhum), le tronquage ou non d’une notation (disp → disparition), ou l’utilisation d’une notation différente (V-ος [-os] → V-adj, Sfx = ος [os]) (Ioannidou & Kyriacopoulou, 2010). Nous avons, de plus, utilisé la notation x-V où x correspond à un préfixe qui est ajouté aux verbes grecs (p.ex. εκ-V [ek-], συν-V [syn-], etc.) (Fista, 2007). Cette notation a une interprétation particulière lors de la conversion des tables au format LGLex. Si cette colonne vaut + pour une entrée verbale donnée, il faut spécifier cette nouvelle entrée qui correspond au verbe préfixé partageant les mêmes propriétés que le verbe non préfixé. Les changements au niveau ty
This content is AI-processed based on open access ArXiv data.