Coron : Plate-forme dextraction de connaissances dans les bases de donnees

Reading time: 5 minute
...

📝 Original Info

  • Title: Coron : Plate-forme dextraction de connaissances dans les bases de donnees
  • ArXiv ID: 1111.5687
  • Date: 2011-11-28
  • Authors: Baptiste Ducatel (INRIA Lorraine - LORIA), Mehdi Kaytoue (INRIA Lorraine - LORIA), Florent Marcuola (INRIA Lorraine - LORIA), Amedeo Napoli (INRIA Lorraine - LORIA), Laszlo Szathmary (INRIA Lorraine - LORIA)

📝 Abstract

Coron is a domain and platform independent, multi-purposed data mining toolkit, which incorporates not only a rich collection of data mining algorithms, but also allows a number of auxiliary operations. To the best of our knowledge, a data mining toolkit designed specifically for itemset extraction and association rule generation like Coron does not exist elsewhere. Coron also provides support for preparing and filtering data, and for interpreting the extracted units of knowledge.

💡 Deep Analysis

Figure 1

📄 Full Content

CORON : Plate-forme d’Extraction de Connaissances dans les Bases de Données Baptiste Ducatel1 Mehdi Kaytoue1 Florent Marcuola1 Amedeo Napoli1 Laszlo Szathmary2 1 Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) Campus Scientifique – BP 239 – 54506 Vandœuvre-lès-Nancy Cedex (France) 2 Département d’Informatique – Université du Québec à Montréal (UQAM) C.P. 8888 – Succ. Centre-Ville, Montréal H3C 3P8 (Canada) {Baptiste.Ducatel, KaytoueM, MarcuolF, Napoli}@loria.fr, Szathmary.L@gmail.com Résumé Conçu à l’origine pour une étude de cohorte, CORON est devenu une plate-forme de fouille de données à part entière, qui incorpore une riche collection d’algorithmes pour l’extraction de motifs (fréquents, fermés, générateurs, etc.) et la génération de règles d’association à partir de données binaires, ainsi que divers outils de pré- et post- traitements. Mots Clef Extraction de connaissances, fouille de données, motifs fréquents et rares, règles d’association 1 Aperçu Né d’un besoin logiciel pour une étude de cohorte [1], CORON est maintenant une plate-forme logicielle d’ex- traction de connaissances à part entière, utilisée dans di- vers domaines, voir par exemple [4, 5, 6]. Destinée à un usage scientifique et pédagogique, la plate-forme CORON s’articule autour de plusieurs modules pour la prépara- tion puis la fouille de données, le filtrage et l’interpré- tation des unités extraites. Ainsi, à partir de données bi- naires (possiblement issues d’une discrétisation), CORON permet d’extraire des motifs (fréquents, fermés, etc.) puis de générer des règles d’association (non redondantes, in- formatives, etc.). Le système englobe ainsi des algorithmes classiques mais aussi spécifiques et propres à la plate- forme [9, 11]. CORON est librement disponible au téléchar- gement à http://coron.loria.fr. Essentiellement programmé en Java 6.0 et rédigé en anglais, il est compa- tible avec Unix/Mac/Windows et s’utilise en ligne de com- mande. 2 Architecture CORON est structuré en divers modules dédiés à chaque étape du processus d’extraction de connaissances (Fig. 1). Modules de pré-traitement. Ces modules offrent de nombreux outils de formatage et de manipulation des don- nées brutes. Les données sont décrites par des tables bi- naires matérialisées sous forme tabulaire dans des fichiers textes bruts : des individus en lignes possèdent ou non des propriétés en colonnes. Les opérations possibles sont prin- cipalement : (i) la discrétisation de données numériques, (ii) la conversion de format de fichiers, (iii) la création du complément et du transposé d’une table binaire, ou encore (iv) diverses opérations de projection de la table. Modules de fouille de données. Découvrir des motifs ou des règles d’association est une tâche très populaire en fouille de données et plus généralement en intelligence ar- tificielle. Par exemple, A →BE, accompagnée de me- sures comme le support et la confiance, permet de refléter les conditions dans lesquelles il est licite de dire “les indi- vidus qui ont la propriété A ont également les propriétés B et E”. Pour construire ces règles, il faut généralement d’abord extraire des motifs d’intérêt. Un motif reflète les conditions dans lesquelles un ensemble de propriétés ap- paraît. Par exemple, le motif ABE peut être à l’origine de A →BE. Ainsi, les modules de fouille de données de CORON per- mettent respectivement – l’extraction de motifs : fréquents, fermés fréquents, rares, générateurs, etc. à l’aide d’une collection d’algo- rithmes de la littérature s’appuyant sur différentes stra- tégies de parcours de l’espace de recherche (par niveau, FIGURE 1 – Architecture de la plate-forme CORON, en re- lation avec les étapes du processus d’extraction de connais- sances. arXiv:1111.5687v1 [cs.DB] 24 Nov 2011 profondeur, hybride). – la génération de règles d’association : fréquentes, rares, fermées, informatives, minimales non redondantes ré- duites, de la base de Duquenne-Guigues, etc. Ces règles sont associées à un ensemble de mesures comme le sup- port, la confiance, le lift et la conviction. – la construction d’un treillis, structure sous-jacente de l’ensemble des motifs extraits, à partir d’une table bi- naire. Modules de post-traitement. Les unités extraites dans l’étape précédente peuvent être très nombreuses et cacher de ce fait des unités intéressantes. Ainsi, diverses étapes permettent de les filtrer, de préférence en interaction avec un expert du domaine des données. L’analyste peut ainsi évaluer les résultats en utilisant un outil de filtrage (syn- taxique ou fonction de la longueur des prémisses et consé- quents des règles obtenues) ou en se concentrant sur les k meilleures unités extraites, en regard d’une mesure qu’il aura jugé pertinente. Un focus syntaxique est également possible par le biais d’un outil de colorisation des proprié- tés ciblées. Boîte-à-outils. Finalement, des modules auxiliaires per- mettent, par exemple, la visualisation de classes d’équiva- lence, la génération a

📸 Image Gallery

cover.png

Reference

This content is AI-processed based on open access ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut