Classification dynamique dun flux documentaire : une evaluation statique prealable de lalgorithme GERMEN

Reading time: 6 minute
...

📝 Original Info

  • Title: Classification dynamique dun flux documentaire : une evaluation statique prealable de lalgorithme GERMEN
  • ArXiv ID: 0811.0602
  • Date: 2008-11-05
  • Authors: Researchers from original ArXiv paper

📝 Abstract

Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative improvement, mainly for "weak signals" detection and precise tracking of topical evolutions in the framework of information watch - though scalability is intrinsically guaranteed in a possibly distributed implementation. Our GERMEN algorithm exhaustively picks up the whole set of density peaks of the data at time t, by identifying the local perturbations induced by the current document vector, such as changing cluster borders, or new/vanishing clusters. Optimality yields from the uniqueness 1) of the density landscape for any value of our zoom parameter, 2) of the cluster allocation operated by our border propagation rule. This results in a rigorous independence from the data presentation ranking or any initialization parameter. We present here as a first step the only assessment of a static view resulting from one year of the CNRS/INIST Pascal database in the field of geotechnics.

💡 Deep Analysis

Deep Dive into Classification dynamique dun flux documentaire : une evaluation statique prealable de lalgorithme GERMEN.

Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative improvement, mainly for “weak signals” detection and precise tracking of topical evolutions in the framework of information watch - though scalability is intrinsically guaranteed in a possibly distributed implementation. Our GERMEN algorithm exhaustively picks up the whole set of density peaks of the data at time t, by identifying the local perturbations induced by the current document vector, such as changing cluster borders, or new/vanishing clusters. Optimality yields from the uniqueness 1) of the density landscape for any value of our zoom parameter, 2) of the cluster allocation operated by our border propagation rule. This results in a rigorous independence from the data presentation ranking or any initialization parameter. We present here as a first step the only

📄 Full Content

JADT 2006 : 8es Journées internationales d’Analyse statistique des Données Textuelles

Classification dynamique d’un flux documentaire : une évaluation statique préalable de l’algorithme GERMEN. Alain Lelu*, Pascal Cuxac**, Joel Johansson* *LASELDI / Université de Franche-Comté 30 rue Mégevand – 25030 Besançon cedex prénom.nom@univ-fcomte.fr **INIST / CNRS 2 Allée du Parc de Brabois - CS 10310 - 54514 Vandoeuvre-lès-Nancy Cedex cuxac@inist.fr

Abstract Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative improvement, mainly for “weak signals” detection and precise tracking of topical evolutions in the framework of information watch – though scalability is intrinsically guaranteed in a possibly distributed implementation. Our GERMEN algorithm exhaustively picks up the whole set of density peaks of the data at time t, by identifying the local perturbations induced by the current document vector, such as changing cluster borders, or new/vanishing clusters. Optimality yields from the uniqueness 1) of the density landscape for any value of our zoom parameter, 2) of the cluster allocation operated by our border propagation rule. This results in a rigorous independence from the data presentation ranking or any initialization parameter. We present here as a first step the only assessment of a static view resulting from one year of the CNRS/INIST Pascal database in the field of geotechnics. Résumé. L’extraction non supervisée et incrémentale de classes sur un flot de données (data-stream clustering) est un domaine en pleine expansion. La plupart des approches visent l’efficacité informatique. La nôtre, bien que se prêtant à un passage à l’échelle en mode distribué, relève d’une problématique qualitative, applicable en particulier au domaine de la veille informationnelle : faire apparaître les évolutions fines, les « signaux faibles », à partir des thématiques extraites d’un flot de documents. Notre méthode GERMEN localise de façon exhaustive les maxima du paysage de densité des données à l’instant t, en identifiant les perturbations locales du paysage à t-1 induites par le document présenté, et les modifications de frontières de classes en résultant. Son caractère optimal provient de son exhaustivité (à une valeur du paramètre de localité correspond un ensemble unique de maxima, et un découpage unique des classes par notre règle de propagation à partir des maxima) qui la rend indépendante de tout paramètre d’initialisation et de l’ordre d’arrivée des données. Nous évaluerons dans un premier temps cet algorithme sous son aspect statique, pour l’année 2003 du corpus documentaire « 10 ans de géotechnique dans la base Pascal » (CNRS/INIST). Mots-clés : data-stream clustering, classification incrémentale.

  1. Introduction La classification automatique non supervisée (clustering) forme un domaine de recherche en soi, avec une longue histoire, et de très nombreuses méthodes constituant autant de variations autour de questions, parmi d’autres, telles que : ALAIN LELU, PASCAL CUXAC, JOEL JOHANSSON JADT 2006 : 8es Journées internationales d’Analyse statistique des Données Textuelles

• quel(s)paramètre(s) : nombre de classes ? ou valeur d’un paramètre de finesse d’analyse ? Seuil(s) ? • classification sur les lignes et/ou sur les colonnes d’un tableau individus × descripteurs ? • classes strictes ? floues ? recouvrantes ? ou noyaux stricts + zones d’influence recouvrantes

  • outliers ? • efficacité informatique ? passage possible à l’échelle des gisements et flux de données
    actuels ? • robustesse, résistance au « bruit » ? Pour rendre compte avec exactitude des évolutions temporelles, cruciales dans beaucoup de domaines d’application, en particulier ceux de la veille d’information, il est nécessaire à notre avis :
  1. de partir d’une base stable, c’est-à-dire d’une classification : • indépendante de l’ordre de présentation des données (exigence n°1), • indépendante des conditions initiales, que ce soit d’un choix de « graines de classes » arbitraires ou dépendantes des données (exigence n°2), • impliquant un minimum de paramètres, un seul si possible (paramètre de « zoom »), pour réduire l’espace des choix et tendre vers un maximum de vérifiabilité et de reproductibilité (exigence n°3).
  2. d’ajouter aux contraintes d’une bonne classification celle de l’incrémentalité (exigence N°4), afin de saisir les évolutions au fil de l’eau : rectifications de frontières entre classes, apparition de nouvelles classes, voire de « signaux faibles »… Le caractère dynamique est intrinsèquement présent dans les analyses utilisant les liens de citation entre articles scientifiques (ou les liens hypertexte du Web). Pour qu’on puisse parler véritablement d’incrémentalité, il faut que le résultat de la classific

…(Full text truncated)…

Reference

This content is AI-processed based on ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut