La fiabilite des informations sur le web
Online IR tools have to take into account new phenomena linked to the appearance of blogs, wiki and other collaborative publications. Among these collaborative sites, Wikipedia represents a crucial source of information. However, the quality of this …
Authors: Bernard Jacquemin (LIMSI), Aurelien Lauf (LIMSI), Celine Poudat (LTCI)
B. Ja quemin et al. , Fiabilité des informations sur le web La abilité des informations sur le w eb: le as Wikip édia Bernard Ja quemin 1 , Aurélien La uf 1 , Céline Poud a t 2 , Martine Hura ul t-Plantet 1 et Niolas A ura y 2 1 LIMSI CNRS UPR 3251, Orsa y (F rane) 2 ENST, P aris (F rane) {Bernard.Jaquemin,Aurelien.Lauf,Martine.Hurault-Plan tet}limsi.fr {Celine.P oudat,Niolas.Aura y}enst.fr Résumé Les outils de re her he d'information sur le w eb doiv en t tenir ompte des phénomènes nouv eaux liés à l'apparition des blogs, wikis, et autres publi- ations ollab orativ es. P armi es sites, l'enylop édie Wikip édia onstitue une soure imp ortan te d'information. La qualité de ses informations a p ourtan t été réemmen t mise en ause. Mieux onnaître les omp orte- men ts des on tributeurs p eut p ermettre de guider les utilisateurs dans des on ten us de qualité parfois disparate. P our explorer ette v oie, nous présen tons une analyse du rle de diéren ts t yp es de on tributeurs dans le on trle de la publiation d'artiles onituels. Mots-lefs : Wikip édia, Fiabilité de l'information, Conit, T ra v ail olla- b oratif. Abstrat Online IR to ols ha v e to tak e in to aoun t new phenomena link ed to the ap- p earane of blogs, wiki and other ollab orativ e publiations. Among these ollab orativ e sites, Wikip edia represen ts a ruial soure of information. Ho w ev er, the qualit y of this information has b een reen tly questionned. A b etter kno wledge of the on tributors' b eha viors should help users na vigate through information whose qualit y ma y v ary from one soure to another. In order to explore this idea, w e presen t an analysis of the role of dieren t t yp es of on tributors in the on trol of the publiation of onitual arti- les. Keyw ords: Wikip edia, Information reliabilit y , Conit, Collab orativ e w ork. 1 In tro dution De plus en plus présen t dans les résultats des moteurs de re her he, le pro jet enylop édique Wikip édia est dev en u par les usages une ressoure information- nelle de référene, et l'un des sites w eb les plus visibles et les plus on tro v er- sés sur In ternet. T rès éloignée du mo dèle enylop édique des Lumières, dans CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 1 B. Ja quemin et al. , Fiabilité des informations sur le web lequel l'exp ert et sa signature garan tissaien t la qualité des textes, Wikip édia s'appuie sur inq prinip es fondateurs 1 supp osés garan tir ette qualité : pro jet enylop édique, neutralité de p oin t de vue, on ten u libre, règles de sa v oir-vivre, et, enn, pas de règles xes en dehors de es prinip es. Ainsi, si les pro es- sus d'édition son t loin de eux de l'enylop édie traditionnelle, les buts a- hés de p ertinene enylop édique et d'ob jetivité 2 en resten t assez pro hes [Giles, 2005 , Endrezzi, 2007 ℄. Néanmoins, la qualité de l'enylop édie libre fait l'ob jet de débats : si [Giles, 2005 ℄ a onstaté que la qualité de Wikip édia était nalemen t omparable à elle de l'enylop édie Britanni a , P . Assouline et ses étudian ts [Gourdain et al. , 2007 ℄ se son t atta hés à mon trer le on traire lorsqu'il s'agit des sienes h umaines. P our faire resp eter ses prinip es fondateurs, la omm unauté wikip édienne a progressiv emen t mis en plae des outils formels ou informels de on trle. Ainsi, aux artiles son t parfois app osés des bandeaux sp éiques 3 év aluan t les artiles en fontion de leur resp et, ou non, des prinip es fondateurs (par exemple ar- tiles de qualité par opp osition à artiles soup çonnés de non-p ertinen e ou ar- tiles non neutr es ). Les pages de disussion de es artiles onituels aueillen t les argumen ts des on tributeurs et médiateurs [Stvilia et al. , 2005 ℄. Outre les bandeaux, un Comité d'arbitrage (CAr) a été mis en plae p our régler les onits p ersonnels sév ères en tre on tributeurs. Le CAr est un jury de sept arbitres is- sus de la omm unauté on tributrie qui les élit p our une p ério de de six mois. Les délib érations et les v otes du CAr son t publis et her hen t autan t que p os- sible l'unanimité. Les arbitres ne se prononen t pas sur le on ten u ou la ligne éditoriale, mais s'en tiennen t au prinip e fondamen tal de sa v oir-vivre (app elé aussi wikilove ). Ils on t des p ossibilités de santion qui p euv en t aller du blo age (in terdition te hnique et temp oraire de on tribuer sur un ou plusieurs artiles) au bannissemen t dénitif (in terdition de partiip er à tout on ten u de Wiki- p édia). Bien que relativ emen t rare seule une en taine d'utilisateurs sur les 31 000 wikip édiens on t omparu dev an t le CAr en 5 ans , l'arbitrage onstitue un outil imp ortan t de gouv ernane de Wikip édia. C'est à tra v ers es outils, et les on tributeurs qui les utilisen t, que s'exere le on trle de la publiation . Après une desription du orpus utilisé, nous établirons une t yp ologie des on tributeurs suiv an t des paramètres qui reèten t leur impliation dans les onits et leur ativité générale de publiation et d'administration dans l'en- ylop édie. Nous étudierons ensuite la répartition de es t yp es de on tributeurs dans l'édition des artiles signalés par la omm unauté wikip édienne omme par- tiulièremen t onformes, ou au on traire non onformes, aux prinip es de p erti- nene enylop édique et d'ob jetivité. Nous onlurons sur les liens en tre t yp es de on tributeur et onformité d'un artile aux prinip es enylop édiques. 1 http://fr.wikip edia.o rg/wiki/Wikip édia:Prinip es_fondateu rs 2 L'artiulation en tre neutralité de p oin t de vue et ob jetivité est réalisée ainsi : Ce que les gens roien t, v oilà un fait ob jetif, et nous p ouv ons présen ter ela as- sez failemen t d'un p oin t de vue neutre. (Jim b o W ales, le fondateur de Wikip édia, http://fr.wikip edia.o rg/wiki/Wikip édia:Neutralité_de_p oin t_de _vue ). 3 http://fr.wikip edia.o rg/wiki/Catégo rie:Maintenane _des_a rt iles 2 CORIA, T régastel, 12-14 mars 2008, pp. 449-456. B. Ja quemin et al. , Fiabilité des informations sur le web 2 Corpus Wikip édia est un terme générique qui reouvre à la fois une initiativ e de réa- tion d'enylop édie en ligne 4 libre, ollab orativ e et m ultilingue, et l'ensem ble des instanes de ette enylop édie, distintes géographiquemen t et souv en t linguis- tiquemen t. Nous disp osons de la sauv egarde réalisée le 2 a vril 2006, regroupan t tous les artiles de Wikip édia-F rane 5 depuis ses débuts, soit plus de 600 000 pages omprenan t notammen t près de 370 000 pages d'artiles auxquelles son t asso iées plus de 40 000 pages de disussion sur artile. Les orpus que nous étu- dions son t des pages extraites de ette base transformées en XML par Wiki2T ei 6 . Nous nous sommes partiulièremen t in téressés aux onits en tre wikip édiens [Aura y et al. , 2007 , Kittur et al. , 2007 , Viégas et al. , 2004 ℄ ar ils son t rév éla- teurs de la manière don t le on trle de la publiation s'eetue. Le premier des orpus olletés omprend les 1000 artiles de notre olletion qui omp orten t ou on t omp orté à un momen t de leur év olution un bandeau de on tro v erse de neutralité, ainsi que leur év en tuelle page de disussion. En viron 1600 on tribu- teurs apparaissen t dans es pages. Ces on tributeurs, bien qu'en p etit nom bre, on t un p oids imp ortan t dans Wikip édia ar ils on t partiip é à en viron 300 000 artiles sur les 370 000 pages d'artiles de notre olletion, soit 81%. Dans les pages d'artiles et de disussions, le balisage sp éique des informations onsiste essen tiellemen t à asso ier à haque in terv en tion sa taille, le nom de son auteur, et la date de son insertion. L'autre orpus est onstitué des quatre-vingts pages d'arbitrages qui se son t ten us duran t la p ério de des débuts de Wikip édia-F rane à a vril 2006. Le bali- sage de haque page se répartit en rubriques qui rép onden t à la struture-t yp e des arbitrages. On a ainsi une desription du onit, qui iden tie le plaignan t et la date de la plain te, le (ou les) ausé(s), la déision de reev abilité et la déision de jugemen t. Ensuite viennen t les argumen taires des protagonistes, les disussions des arbitres sur la reev abilité de la plain te, et enn le jugemen t propremen t dit qui est omp osé d'une prop osition de santion et d'un v ote des arbitres. Si l'unanimité ne p eut se faire autour de la première prop osition, d'autres prop ositions et v otes p euv en t suivre. 3 T yp ologie des wikip édiens en onit p ersonnel Dans la en taine d'arbitrage de notre orpus, ertains noms de on tribu- teurs apparaissen t plus souv en t, soit dans le rle du plaignan t qui dép ose la plain te, soit dans le rle de l'ausé. Ces deux p les, fréquene de omparution et rle dans la plain te, nous p ermetten t de dégager une première t yp ologie des on tributeurs en onit. Nous a v ons distingué trois atégories de on tributeurs suiv an t la fréquene de omparution, les tr ès habitués qui um ulen t en tre 3 et 14 omparutions 7 , les 4 Consultable sur http://www.wikip edia.o rg/ . 5 Consultable sur http://fr.wikip edia.o rg/ 6 Logiiel libre disp onible sur http://wiki2tei.sourefo rge.net/ et distribué onformémen t à la liene BSD ( http://www.op ensoure.o rg/lien ses/b sd- lien se.ph p ). Il on v ertit les balises de mise en forme du wikitexte en balises XML et insère un en-tête desriptif du do umen t onforme au mo dèle de la T ext En o ding Initiative (TEI) 7 14 est un reord, on en a ensuite deux à 7 et un à 4, les autres étan t à 3 omparutions. CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 3 B. Ja quemin et al. , Fiabilité des informations sur le web habitués qui en on t deux, et les o asionnels qui on t une seule omparution. Quan t à leur rle dans la plain te, nous a v ons distingué les plaignants , qui son t plus souv en t en p osition d'ausateurs, les a usés , qui on t plus de plain tes dép osées on tre eux qu'ils n'en dép osen t, et eux qui omparaissen t de façon assez équilibrée tan tt en plaignan ts tan tt en ausés. On v oit sur le tableau 1 que les wikip édiens qui omparaissen t souv en t, les tr ès habitués , son t en ma jorité plaignan ts, alors que les o asionnels , qui n'on t omparu qu'une fois, son t en ma jorité des ausés. On onstate aussi que la ma jorité de eux qui on t omparu deux fois on t été une fois plaignan ts, une fois ausés. Comparutions Con tributeurs Plaignan t A usé Les 2 T rès habitués 10 50% 30% 20% Habitués 17 12% 29% 59% Oasionnels 74 30% 70% 0% T ab. 1 Les omparutions au Comité d'arbitrage Nous a v ons ensuite in tro duit dans ette t yp ologie le mo de de on tribution à Wikip edia. Ainsi, nous a v ons onsidéré le nom bre d'in terv en tions dans l'édition de l'ensem ble des pages d'artiles et de disussions de Wikip édia-F rane. Nous a v ons établi quatre atégories, les tr ès gr os ontributeurs don t le nom bre d'in- terv en tions v arie en tre en viron 12 000 et 40 000 p endan t la p ério de onsidérée, les gr os ontributeurs , en tre 2 800 et 12 000, les ontributeurs moyens en tre 600 et 2 800, et les p etits ontributeurs , en tre 1 et 600. Nous a v ons enn distingué trois atégories de on tribution suiv an t que elle-i onernait plus souv en t les artiles, plus souv en t les disussions, ou étaien t répartis en tre les deux. Con tributions Con tributeurs -> artile -> disussion Les 2 T rès gros on tributeurs 7 100% 0% 0% Gros on tributeurs 23 96% 0% 4% Con tributeurs mo y ens 31 81% 0% 19% P etits on tributeurs 40 70% 5% 25% T ab. 2 Les on tributions des protagonistes du Comité d'arbitrage Le tableau 2 mon tre que les on tributeurs en onit p ersonnel partiip en t dans l'ensem ble da v an tage à l'élab oration des artiles qu'aux disussions qui les aompagnen t. En rev an he, on onstate que moins ils on tribuen t aux artiles, plus ils on t tendane à en disuter. En roisan t la fréquene de omparution et la taille des in terv en tions (tableau 3 ), on se rend ompte que les tr ès habitués du CAr son t en ma jorité des gr os ontributeurs , les o asionnels étan t plutt des p etits ontributeurs . En roisan t la taille des on tributions et le rle dans la plain te (tableau 4), on onstate que les gr os ontributeurs son t plus souv en t plaignan ts et les p etits ontributeurs plus souv en t ausés. La part des prota- gonistes qui son t, de façon omparable, tan tt plaignan ts, tan tt ausés, reste p our haque group e marginale. Ces tableaux nous suggèren t que les gros on tributeurs à Wikip édia en on t bien in tégré les prinip es fondamen taux, et tiennen t à les faire resp eter. En eet, la tendane qui émerge est que plus ils on tribuen t aux artiles et plus ils jouen t un rle de on trle de la publiation parallèlemen t à leur partiipation 4 CORIA, T régastel, 12-14 mars 2008, pp. 449-456. B. Ja quemin et al. , Fiabilité des informations sur le web Comparutions Con tributeurs très gros gros mo y en p etit T rès habitués 10 20% 50% 30% 0% Habitués 17 13% 29% 29% 29% Oasionnels 74 4% 18% 31% 47% T ab. 3 Les t yp es de on tributeurs dans les omparutions Con tributions Con tributeurs Plaignan ts A usés Les 2 T rès gros on tributeurs 7 57% 29% 14% Gros on tributeurs 23 39% 44% 17% Con tributeurs mo y ens 31 32% 58% 10% P etits on tributeurs 40 15% 75% 10% T ab. 4 Rle dans la plain te par taille de on tribution [Bry an t et al. , 2005 ℄. Ce on trle s'exere dans le adre du CAr par leur rle plus in tensif en tan t que plaignan t. Il s'exere ma joritairemen t vis-à-vis de moyens et p etits on tributeurs. 4 Les on tributeurs en onit dans les artiles non neutres En amon t de l'arbitrage, le bandeau de on tro v erse de neutralité onstitue p our nous le premier indie tangible de désaord en tre wikip édiens. Nous a v ons observ é que 77% des protagonistes du CAr guren t parmi les 1600 on tributeurs à au moins un artile non neutre. Cette forte présene suggère qu'une grande partie des onits naît de on tro v erses sur l'ob jetivité. Les tr ès gr os ontribu- teurs et les tr ès habitués du CAr guren t tous dans le orpus des artiles non neutres, et les plaignants presque tous (90%), alors que les a usés y son t moins présen ts (73%). Ce son t les p etits ontributeurs présen ts au CAr qui partiip en t le moins aux artiles non neutres (57%). P our donner une idée plus préise des t yp es de omp ortemen ts des wikip é- diens dans le pro essus de v alidation de l'information, nous étudions à présen t leurs partiipations à des artiles ouv erts par un bandeau partiulier 8 . Nous a v ons utilisé es bandeaux p our t yp er les artiles en artiles de qualité , artiles en ontr overse de neutr alité , artiles en ontr overse de p ertinen e , et artiles en pr ote tion . La gure 1 représen te, en ourb e déroissan te, le nom bre de on tributions resp etiv emen t aux artiles sous protetion (A), aux artiles non neutres (B), aux artiles en on tro v erse de p ertinene (C), et aux artiles de qualité (D), des vingt on tributeurs les plus proliques du orpus des artiles non neutres. Sur es graphes, les wikip édiens de statut partiulier 9 son t marqués d'un astérisque, et leur impliation év en tuelle dans un arbitrage est indiquée par une ligne v er- 8 Déni dans Wikip édia omme étan t un t yp e de adre guran t dans les artiles p our transmettre une information ou un lien . 9 Nous en tendons par statut p artiulier une distintion sp éique de droits et de fontions aordée à ertains on tributeurs v olon taires élus par la omm unauté. On y retrouv e les ad- ministrateurs, les arbitres, les wikip ompiers, et. CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 5 B. Ja quemin et al. , Fiabilité des informations sur le web Fig. 1 T yp es d'artiles et on tributeurs en onit tiale prop ortionnelle au nom bre d'arbitrages. On observ e que parmi les vingt prinipaux on tributeurs aux artiles sous protetion ( 1A), 35% on t omparu dev an t le CAr. Leur rle lors de es arbitrages est assez disparate, tan tt plai- gnan ts, tan tt ausés, habitués ou o asionnels dev an t le CAr. On note par on tre qu'au sein des wikip édiens les plus prolixes dans les artiles de qualité (1D), trois seulemen t son t impliqués dans des arbitrages, toujours omme plai- 6 CORIA, T régastel, 12-14 mars 2008, pp. 449-456. B. Ja quemin et al. , Fiabilité des informations sur le web gnan ts. T outefois, auun d'eux n'est un habitué du CAr, e qui temp ère ette apparene d'agressivité. En tre es deux tendanes, les on tributeurs aux artiles non neutres et aux artiles non p ertinen ts mon tren t une tendane mo y enne au onit. En eet 25% des prinipaux on tributeurs aux artiles non neutres (- gure 1 B) et 20% des on tributeurs les plus onernés par des artiles non p er- tinen ts (gure 1 C) son t égalemen t protagonistes d'un arbitrage. P ar ailleurs, il est remarquable que la ma jorité de es gros on tributeurs on t égalemen t un statut partiulier. Cela onrme la orrélation déjà signalée en tre l'impliation forte d'un on tributeur, tan t par le nom bre de on tributions que par un statut partiulier, et sa présene là où les prinip es fondateurs de Wikip édia on t b e- soin d'être défendus. Il en déoule une tendane au resp et des règles de qualité wikip édiennes de l'information là où es on tributeurs in terviennen t. 5 Conlusion En tan t qu'espae ollab oratif visan t à onen trer et struturer des on ten us enylop édiques, Wikip édia est à l'origine de pro essus o op ératifs, d'é hange d'information et de désaords. À la suite d'une étude des habitudes des wikip é- diens tan t à tra v ers leurs on tributions qu'au ours des on tro v erses et onits nous a v ons dégagé des omp ortemen ts de nature à guider d'autres utilisateurs et à aorder une ertaine onane à l'information. En eet, notre étude ex- ploratoire a mon tré une tendane des gros on tributeurs impliqués dans l'ad- ministration de Wikip édia à s'in v estir p our faire resp eter les règles du pro jet, notammen t dans son prinip e qualitatif de neutralité de p oin t de vue, quitte à demander un arbitrage si le omp ortemen t d'un on tributeur n'est pas onforme au prinip e du wikilove . Prinipalemen t plaignan ts mais p eu habitués du onit, es gros on tribu- teurs sem blen t o up er une p osition de on trle éditorial et qualitatif sur l'en- ylop édie. En ela, la présene de tels wikip édiens parmi les on tributeurs d'un artile app orte une ertaine abilité à l'information qui y a été dép osée. En re- v an he, une forte onen tration de on tributeurs habitués des onits p ersonnels p ourrait indiquer un artile sujet à aution. Cette tendane demande ep endan t à être onrmée d'une part par une v alidation qualitativ e sur des artiles non onituels, et d'autre part par un examen des mêmes lasses de on tributeurs dans d'autres instanes de Wikip édia. Remeriemen ts Ce tra v ail a été réalisé dans le adre du pro jet Autograph ANR-05-RNR T- 03002 (S0604108 W). Référenes [Aura y et al. , 2007℄ A ura y , N., Poud a t , C. et Pons , P . (2007). Demo rati- zing sien ti vulgarization. The balane b et w een o op eration and onit in Fren h Wikip edia. Observatorio , 1(3). CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 7 B. Ja quemin et al. , Fiabilité des informations sur le web [Bry an t et al. , 2005℄ Br y ant , S. L., F or te , A. et Br ukman , A. (2005). Be- oming Wikip edian : transformation of partiipation in a ollab orativ e online enylop edia. In Pr o e e dings of the 2005 international A CM SIGGR OUP onfer en e on Supp orting gr oup work , pages 110, Sanib el Island, Florida, USA. A CM Press. [Endrezzi, 2007℄ Endrezzi , L. (2007). La omm unauté omme auteur et édi- teur : l'exemple de wikip édia. In Journé e d'étude des URFIST : Évaulation et validation de l'information sur Internet , P aris. [Giles, 2005℄ Giles , J. (2005). In ternet enylopaedias go head to head. Natur e , 438(7070):900901. [Gourdain et al. , 2007℄ Gourd ain , P ., O'Kell y , F., R oman-Ama t , B., Sou- las , D. et v on Droste zu Hülshoff , T. (2007). L a R évolution Wikip é dia. Les enylop é dies vont-el les mourir ? Éditions Mille et une n uits, P aris. [Kittur et al. , 2007℄ Kittur , A., Suh , B., Pendleton , B. et Chi , E. (2007). He sa ys, She Sa ys : Conit and Co ordination in Wikip edia. In Pr o e e dings of the SIGCHI onfer en e on Human fators in omputing systems , pages 453462, San Jose, Californie, USA. [Stvilia et al. , 2005℄ Stvilia , B., Twid ale , M., Gasser , L. et Smith , L. (2005). Information Qualit y Disussions in Wikip edia. Rapp ort te hnique ISRN UIUCLIS2005/2+CSCW, Univ ersit y of Illinois at Urbana-Champaign. [Viégas et al. , 2004℄ Viégas , F. B., W a ttenber g , M. et D a ve , K. (2004). Stu- dying Co op eration and Conit b et w een Authors with history o w Visua- lizations. In Pr o e e dings of the SIGCHI onfer en e on Human fators in omputing systems , pages 575582, Vienne, Autri he. 8 CORIA, T régastel, 12-14 mars 2008, pp. 449-456.
Original Paper
Loading high-quality paper...
Comments & Academic Discussion
Loading comments...
Leave a Comment