📝 Original Info
- Title: Classification dynamique dun flux documentaire : une evaluation statique prealable de lalgorithme GERMEN
- ArXiv ID: 0811.0602
- Date: 2008-11-05
- Authors: Researchers from original ArXiv paper
📝 Abstract
Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative improvement, mainly for "weak signals" detection and precise tracking of topical evolutions in the framework of information watch - though scalability is intrinsically guaranteed in a possibly distributed implementation. Our GERMEN algorithm exhaustively picks up the whole set of density peaks of the data at time t, by identifying the local perturbations induced by the current document vector, such as changing cluster borders, or new/vanishing clusters. Optimality yields from the uniqueness 1) of the density landscape for any value of our zoom parameter, 2) of the cluster allocation operated by our border propagation rule. This results in a rigorous independence from the data presentation ranking or any initialization parameter. We present here as a first step the only assessment of a static view resulting from one year of the CNRS/INIST Pascal database in the field of geotechnics.
💡 Deep Analysis
Deep Dive into Classification dynamique dun flux documentaire : une evaluation statique prealable de lalgorithme GERMEN.
Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative improvement, mainly for “weak signals” detection and precise tracking of topical evolutions in the framework of information watch - though scalability is intrinsically guaranteed in a possibly distributed implementation. Our GERMEN algorithm exhaustively picks up the whole set of density peaks of the data at time t, by identifying the local perturbations induced by the current document vector, such as changing cluster borders, or new/vanishing clusters. Optimality yields from the uniqueness 1) of the density landscape for any value of our zoom parameter, 2) of the cluster allocation operated by our border propagation rule. This results in a rigorous independence from the data presentation ranking or any initialization parameter. We present here as a first step the only
📄 Full Content
JADT 2006 : 8es Journées internationales d’Analyse statistique des Données Textuelles
Classification dynamique d’un flux documentaire : une
évaluation statique préalable de l’algorithme GERMEN.
Alain Lelu*, Pascal Cuxac**, Joel Johansson*
*LASELDI / Université de Franche-Comté
30 rue Mégevand – 25030 Besançon cedex
prénom.nom@univ-fcomte.fr
**INIST / CNRS
2 Allée du Parc de Brabois - CS 10310 - 54514 Vandoeuvre-lès-Nancy Cedex
cuxac@inist.fr
Abstract
Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present
research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative
improvement, mainly for “weak signals” detection and precise tracking of topical evolutions in the framework of
information watch – though scalability is intrinsically guaranteed in a possibly distributed implementation. Our
GERMEN algorithm exhaustively picks up the whole set of density peaks of the data at time t, by identifying the
local perturbations induced by the current document vector, such as changing cluster borders, or new/vanishing
clusters. Optimality yields from the uniqueness 1) of the density landscape for any value of our zoom parameter,
2) of the cluster allocation operated by our border propagation rule. This results in a rigorous independence from
the data presentation ranking or any initialization parameter. We present here as a first step the only assessment
of a static view resulting from one year of the CNRS/INIST Pascal database in the field of geotechnics.
Résumé.
L’extraction non supervisée et incrémentale de classes sur un flot de données (data-stream clustering) est un
domaine en pleine expansion. La plupart des approches visent l’efficacité informatique. La nôtre, bien que se
prêtant à un passage à l’échelle en mode distribué, relève d’une problématique qualitative, applicable en
particulier au domaine de la veille informationnelle : faire apparaître les évolutions fines, les « signaux faibles »,
à partir des thématiques extraites d’un flot de documents. Notre méthode GERMEN localise de façon exhaustive
les maxima du paysage de densité des données à l’instant t, en identifiant les perturbations locales du paysage à
t-1 induites par le document présenté, et les modifications de frontières de classes en résultant. Son caractère
optimal provient de son exhaustivité (à une valeur du paramètre de localité correspond un ensemble unique de
maxima, et un découpage unique des classes par notre règle de propagation à partir des maxima) qui la rend
indépendante de tout paramètre d’initialisation et de l’ordre d’arrivée des données. Nous évaluerons dans un
premier temps cet algorithme sous son aspect statique, pour l’année 2003 du corpus documentaire « 10 ans de
géotechnique dans la base Pascal » (CNRS/INIST).
Mots-clés : data-stream clustering, classification incrémentale.
- Introduction
La classification automatique non supervisée (clustering) forme un domaine de recherche en
soi, avec une longue histoire, et de très nombreuses méthodes constituant autant de variations
autour de questions, parmi d’autres, telles que :
ALAIN LELU, PASCAL CUXAC, JOEL JOHANSSON
JADT 2006 : 8es Journées internationales d’Analyse statistique des Données Textuelles
• quel(s)paramètre(s) : nombre de classes ? ou valeur d’un paramètre de finesse d’analyse ?
Seuil(s) ?
• classification sur les lignes et/ou sur les colonnes d’un tableau individus × descripteurs ?
• classes strictes ? floues ? recouvrantes ? ou noyaux stricts + zones d’influence recouvrantes
- outliers ?
• efficacité informatique ? passage possible à l’échelle des gisements et flux de données
actuels ?
• robustesse, résistance au « bruit » ?
Pour rendre compte avec exactitude des évolutions temporelles, cruciales dans beaucoup de
domaines d’application, en particulier ceux de la veille d’information, il est nécessaire à notre
avis :
- de partir d’une base stable, c’est-à-dire d’une classification :
• indépendante de l’ordre de présentation des données (exigence n°1),
• indépendante des conditions initiales, que ce soit d’un choix de « graines de classes »
arbitraires ou dépendantes des données (exigence n°2),
• impliquant un minimum de paramètres, un seul si possible (paramètre de « zoom »), pour
réduire l’espace des choix et tendre vers un maximum de vérifiabilité et de reproductibilité
(exigence n°3).
- d’ajouter aux contraintes d’une bonne classification celle de l’incrémentalité (exigence
N°4), afin de saisir les évolutions au fil de l’eau : rectifications de frontières entre classes,
apparition de nouvelles classes, voire de « signaux faibles »… Le caractère dynamique est
intrinsèquement présent dans les analyses utilisant les liens de citation entre articles
scientifiques (ou les liens hypertexte du Web). Pour qu’on puisse parler véritablement
d’incrémentalité, il faut que le résultat de la classific
…(Full text truncated)…
Reference
This content is AI-processed based on ArXiv data.