Du corpus au dictionnaire
📝 Abstract
In this article, we propose an automatic process to build multi-lingual lexico-semantic resources. The goal of these resources is to browse semantically textual information contained in texts of different languages. This method uses a mathematical model called Atlas s'emantiques in order to represent the different senses of each word. It uses the linguistic relations between words to create graphs that are projected into a semantic space. These projections constitute semantic maps that denote the sense trends of each given word. This model is fed with syntactic relations between words extracted from a corpus. Therefore, the lexico-semantic resource produced describes all the words and all their meanings observed in the corpus. The sense trends are expressed by syntactic contexts, typical for a given meaning. The link between each sense trend and the utterances used to build the sense trend are also stored in an index. Thus all the instances of a word in a particular sense are linked and can be browsed easily. And by using several corpora of different languages, several resources are built that correspond with each other through languages. It makes it possible to browse information through languages thanks to syntactic contexts translations (even if some of them are partial).
💡 Analysis
In this article, we propose an automatic process to build multi-lingual lexico-semantic resources. The goal of these resources is to browse semantically textual information contained in texts of different languages. This method uses a mathematical model called Atlas s'emantiques in order to represent the different senses of each word. It uses the linguistic relations between words to create graphs that are projected into a semantic space. These projections constitute semantic maps that denote the sense trends of each given word. This model is fed with syntactic relations between words extracted from a corpus. Therefore, the lexico-semantic resource produced describes all the words and all their meanings observed in the corpus. The sense trends are expressed by syntactic contexts, typical for a given meaning. The link between each sense trend and the utterances used to build the sense trend are also stored in an index. Thus all the instances of a word in a particular sense are linked and can be browsed easily. And by using several corpora of different languages, several resources are built that correspond with each other through languages. It makes it possible to browse information through languages thanks to syntactic contexts translations (even if some of them are partial).
📄 Content
arXiv:0901.3990v1 [cs.CL] 26 Jan 2009 Bernard Ja quemin et Sabine Ploux (2008). Du
orpus au di tionnair e Du orpus au di tionnaire. Réalisation automatique d’un outil de gestion de l’information m ultilingue Bernard Ja quemin 1 et Sabine Ploux 2 1 LIMSI CNRS UPR 3251 Orsa y (F ran e) 2 UCB Ly on 1 et L2C2 CNRS UMR 5230 Bron (F ran e) Bernard.Ja quemin
limsi.fr sploux
is . nrs.fr Résumé Dans et arti le, nous prop osons une métho de automatique de onstru - tion de ressour es lexi o-séman tiques m ultilingues p our na viguer par le sens à tra v ers l’information on ten ue dans des bases textuelles de langues diéren tes. Cette métho de s’appuie sur un mo dèle mathématique de re- présen tation du sens app elé A tlas séman tiques, qui onsiste à exploiter des relations linguistiques en tre des unités lexi ales p our onstruire des graphes, pro jetés dans un espa e séman tique qui onstitue une arte dé- notan t les tendan es de sens d’un mot onsidéré. À partir de l’analyse morpho-syn taxique d’un orpus, et en utilisan t les relations syn taxiques en tre les items du orpus, il est p ossible de onstituer une ressour e lexi o- séman tique qui dé rit l’ensem ble des sens attestés dans le orpus p our tout le lexique qui y est représen té, grâ e aux on textes syn taxiques t ypiques des en trées dé rites. Il est égalemen t p ossible de onserv er un lien systé- matique en tre les tendan es de sens représen tées et les énon és qui on t servi à les onstruire, et don de relier toutes les instan es d’un mot dans un sens donné p our na viguer en tre elles. Il est égalemen t p ossible, en uti- lisan t des orpus de langues diéren tes, de onstruire des ressour es qui se orresp onden t en tre langues, et de na viguer en tre les textes grâ e à la tradu tion, même partielle, des on textes syn taxiques. Mots- lefs : ressour e lexi o-séman tique, représen tation du sens, na vi- gation séman tique, gestion d’information m ultilingue, orpus m ultilingue, na vigation in terlangue. Abstra t In this arti le, w e prop ose an automati pro ess to build m ulti-lingual lexi o-seman ti resour es. The goal of these resour es is to bro wse seman- ti ally textual information on tained in texts of dieren t languages. This metho d uses a mathemati al mo del alled A tlas séman tiques in order to represen t the dieren t senses of ea h w ord. It uses the linguisti relations Cahiers de Linguistique, 33(1), pp. 6384. 1 Bernard Ja quemin et Sabine Ploux (2008). Du
orpus au di tionnair e b et w een w ords to reate graphs that are pro je ted in to a seman ti spa e. These pro je tions onstitute seman ti maps that denote the sense trends of ea h giv en w ord. This mo del is fed with syn ta ti relations b et w een w ords extra ted from a orpus. Therefore, the lexi o-seman ti resour e pro du ed des rib es all the w ords and all their meanings observ ed in the orpus. The sense trends are expressed b y syn ta ti on texts, t ypi al for a giv en meaning. The link b et w een ea h sense trend and the utteran es used to build the sense trend are also stored in an index. Th us all the instan es of a w ord in a parti ular sense are link ed and an b e bro wsed easily . And b y using sev eral orp ora of dieren t languages, sev eral re- sour es are built that orresp ond with ea h other through languages. It mak es it p ossible to bro wse information through languages thanks to syn- ta ti on texts translations (ev en if some of them are partial). Keyw ords: lexi o-seman ti resour e, sense represen tation, seman ti bro w- sing, m ultilingual information managemen t, m ultilingual orpus, ross- lingual bro wsing. 1 In tro du tion Dans notre so iété, la quan tité d’information textuelle disp onible augmen te de manière telle qu’au un être h umain ne p eut plus la maîtriser. Or elle est dev en ue une ri hesse apitale dans des se teurs aussi v ariés que la p olitique, la ulture, l’enseignemen t, la défense, l’é onomie, et . La situation est d’autan t plus di ile à gérer que l’information n’est plus né essairemen t disp onible dans la langue des utilisateurs, mais qu’elle est égalemen t à
her her en d’autres langues. Des appro
hes automatiques son t dès lors né essaires p our iden tier et indexer les on ten us an d’y donner un a ès aisé et immédiat à la demande. Les appro
hes automatiques de la gestion de l’information se heurten t tou- tefois à une di ulté ma jeure : elle de la ompréhension des textes, et des mots qui les omp osen t. L’utilisation de di tionnaires, naturellemen t mise en ÷uvre immédiatemen t, a dév oilé plusieurs défauts ma jeurs de es ouvrages lors- qu’ils son t utilisés dans le adre d’une exploitation automatique : ouv erture insusan te du lexique, dé oupage en a eptions arbitraire et parfois in ohéren t, information souv en t la unaire ou p eu systématique, stru ture et données aisé- men t ompréhensibles p our un être h umain, mais né essitan t des onnaissan es pré
This content is AI-processed based on ArXiv data.