Jeux stochastiques et contr^ole de puissance distribue

Jeux sto c hastiques et con trôle de puissance distribué F rançois Méria ux 1 , Maël Le Treust 1 , Samson Lasaulce 1 , Michel Kief fer 12 1 L2S - CNRS - SUPELEC - Univ ersité Paris-Sud 3 rue Joliot-Curie F-91192 Gif-sur-Y vette, F rance 2 L TCI - CNRS - T elecom P ar isT ec h 46 rue Barra ult F-75013 Paris, F rance franc ois.meriau x @l s s.supelec.fr, mael. letreust@l s s. s upelec.fr samso n.lasaulce @ ls s .supelec.fr, mich el.kieffer @ lss. s upelec.fr Résumé – Les émetteurs d’un ca nal à accès multi ple sont s up posés c hoisir eux-mêmes leur stratégi e d e contrô le de puissance de manière à être eﬃcaces énergétiquemen t. Nous montrons que le concept de jeux stochasti q u es permet de concevo ir d es stratégies de con trôle à la fois distribuées, eﬃcaces globalemen t et ne nécessitan t qu’une connaissance partielle du système de comm unication. La région de tous les p oints d’utilité d’équilibre est établie et une stratégie pratique de contrô le de puissance de l’émetteur, rep o sant sur le partage temp orel légitime, est proposée. Abstract – T ransmitters of a multi ple access channel are ass umed to freely c ho ose their pow er control strategy in order to b e energy-eﬃcient. W e show that in a sto c hastic game framew ork, we can develop energy- eﬃci ent distributed control strategies whic h only req uire p a rtial know ledge of the entire system. Ac hiev able utility equilibrium region is c haracterized and based on time-sharing, an explicit p o wer control strategy is prop o sed. 1 In tro duction Dans un système de communication sans ﬁl où plu- sieurs émetteurs voien t leur sig naux int erfér er en récep- tion, la disparité des dyna miques de puissance des co m- po san tes du signa l reçu p ose généra lement pr oblème au récepteur. Et ce, notamment lors q ue le réce pteur doit dé- co der plusieurs de ces compo san tes. Le cont rô le de puis- sance à l’émission vise précisémen t à compense r cette forte disparité. Dans cet a rticle, nous nous in téres sons à un scé- nario d’imp ortance croissante, celui des systèmes distri- bués. Dans ce cadre, l’émetteur décide de sa p olitique de contrôle de puissa nce en v ue de maximiser s a propre mé- trique de p erformance. La métrique r eten ue, a ppelée uti- lité, est l’eﬃca cité énergétique (en bit par Joule). Ce cadre est exactement celui introduit par Go odma n et al. dans [4]. Les auteur s de [4] ont remarqué que la théorie des jeux, théorie dont l’essence même est d’étudier des pr eneurs de décisions dont les actions sont inter-dép e nda n tes, e s t un outil p ertinen t po ur a nalyser ce pro bl ème. Leur mo dèle, à sav oir un mo dèle de jeu en un coup joué p our chaque paquet de données émis (les joueurs étant les émetteurs et l’action d’un joueur consistant à choisir son niveau de pu is - sance), conduit à une stra tégie de co n trôle pratique (rep o- sant sur une connaissa nce limitée du sys tème) mais inef- ﬁcace globa lement. Plus précisément, o n p eut démontrer qu’il existe une politique de contrôle qui Pareto-domine leur solution, c’est-à - dire p our laq uelle tous les émetteurs font mieux en termes d’utilité. Les auteurs de [8] o n t dé- montré qu’un mo dèle de jeu r épété [7] per met d’av oir une mo délisation plus ﬁne du problème, mo délisation qui conduit à des solutions plus eﬃcaces globalement . L’idée fondamentale et nouvelle en contrôle de puissance, et que nous exploito ns da ns cet article, est qu’il ne faut pa s sup- po ser le co n trôle de puissance indépenda nt d’un paquet à l’autre, et ceci même si les réalisa tions des gains des ca- naux sont indép endant es. Un mo dèle de jeu dynamique tel que le jeu répé té p e r met de tenir compte du fait que les joueurs interagissent plusieurs fois et ceci conduit à créer une corrélation en tre les niveaux de puissa nces choi- sis par un joueur au cour s du temps, et nous le r é p étons, même p o ur des ca na ux dits i.i.d. La cont r ibution de cet article est de gé nér aliser les trav aux de [8] en relaxant une h yp othèse de norma lis ation de l’utilité individuelle pa r le gain de c a nal. P our faire cela, nous utiliso ns un mo dèle de jeux sto c hastiques [6], ce qui nous amène à suppr im er la so us-optimalité en termes de p erformances induite par la nor malisation nécessaire au mo dèle de jeu rép été. Les trav aux de [3, 5] sont alors utilisés p o ur obtenir un F olk théorème qui ca ractérise la région des utilités atteignables de ce jeu stochastique. Nous présentons également une stratégie de contrôle de puissance explicite po ur ce jeu. Dans le para graphe 2 , nous détaillons le mo dèle du jeu sto c hastique que nous considérons. Au para graphe 3, nous présentons les résultats analytiques obtenus en ce qui con- cerne la rég ion des utilités atteignables ainsi que les r é- sultats d’équilibre et de performa nce de la s tr atégie de Sélection des Meilleur s Utilisateur s (SMU). Dans le par a - graphe 4 sont pr ésen tés les résultats de simulation obtenus po ur c o mparer la stratég ie SMU à d’autr e s stratégies de contrôle de puissa nce. 2 Mo délisati on du problème par un jeu sto c hastique Nous considérons un ca nal à accès m ultiple, décentra- lisé au sens du contrôle de puissance, p our lequel K uti- lisateurs transmettent vers un récepteur sur des inter- v alles de temps (durée d’un pa quet) , q ue nous app ellerons étap es du jeu répété, sur lesquels les canaux sont sup- po sés statiques. À chaque étap e, les canaux sélectifs en temps mais no n sélectifs en fréquence , notés h i , sont ti- rés de manière indép endan te sur un ensemble admissible : | h i | 2 ∈ [ η min i , η max i ] = Γ i . Nous suppo sons vériﬁée l’hypo- thèse de récipro cité des canaux mo n tant s et descendants. De plus, nous supposons que le s terminaux sont capa bles d’estimer av ec une err eur négligea ble leur canaux mon- tant s (via un méc a nisme de séquences d’apprentissage, une bo ucle de retour, etc). Le signal reçu p eut s’écrir e : Y = K X i =1 h i X i + Z (1) av ec E | X i | 2 = p i et Z ∼ N ( 0 , σ 2 ) . Dans un contexte où le récepteur décode le sig nal de chaque émetteur sépar é - men t et o ù il n’y a pas de mécanisme tel que la formatio n de voie [9] p our attén uer les interférences, p our chaque utilisateur i ∈ K = { 1 , 2 , ..., K } , le r apport signal sur in- terférence plus br uit (RSIB) est donné par : RSIB i = γ i = p i | h i | 2 P j 6 = i p j | h j | 2 + σ 2 (2) Nous p ouv o ns maintenan t déﬁnir le jeu s tochastique qui mo délise l’interaction entre les émetteurs qui c hois is sen t leur niv ea u de puissa nce au cours du temps. Déﬁnition 1 (Jeu sto c hastique) Un jeu sto chastique ave c observation p arfaite est déﬁni p ar l’uplet : G = ( K , ( T i ) i ∈K , ( v i ) i ∈K , (Γ i ) i ∈K , π , Θ) , (3) ave c K l’ensemble des joueurs, T i l’ensemble des stra té gies p our le joueur i , v i la fonction d’utilité du joueur i sur le long terme, Γ i l’interval le des états de c anaux ac c essibles au joueur i , π la pr ob abi lité de tr ansition sur les états et Θ l’esp ac e des observations. La stratégie et l’utilité sur le lo ng terme du joueur i sont déﬁnies co mme suit. Déﬁnition 2 (Stratégie des joueurs) L a str até gie du joueur i ∈ K est u ne sé quenc e de fonctions ( τ i,t ) t ≥ 1 ave c τ i,t :     Θ t → A i h t 7→ p i ( t ) . (4) À l’histoire h t = ( θ (1) ..., θ ( t − 1) , η ( t )) ∈ Θ t (observ ations passées et état présent), on asso cie une action p i ( t ) ∈ A i . La stra tégie du joueur i est no tée τ i et le vecteur de statégies τ = ( τ 1 , ..., τ K ) est nommé stratégie join te. Une stratégie jointe τ en traîne une unique séquence d’actions ( p ( t )) t ≥ 1 . Déﬁnition 3 (Utili té des joueurs) Soi t τ une str até- gie jointe. L’utilité du joueur i ∈ K sachant que l’état initial du c anal est η (1) est déﬁnie p ar v i ( τ , η (1)) = X t ≥ 1 λ (1 − λ ) t − 1 E τ ,π  u i ( p ( t ) , η ( t )) | η (1)  (5) av ec u i ( p 1 , ..., p K ) = R i f (RSIB i ) p i [bit / J] , l’utilité insta nta- née du jo ueur i telle que déﬁnie dans [4]. R i est le débit d’émission du joueur i , f e s t la fonction d’eﬃcacité, elle prend ses v a le ur s entre 0 e t 1 . Le paramètre λ est appelé facteur d’escompte. Il p eut être interprété comme une pro- babilité d’arrêt ou le fait q ue les joueurs apprécient diﬀé- remment leurs gains à court ter me et leurs gains à long terme. 3 Résultats analytiques 3.1 F olk Théorème Théorème 4 (F olk) Soit F l’ensemble des u tili tés att ei - gnables et individuel lement r ationnel les. Sous l’hyp othèse que les joueurs disp osent du même signal public, alors p our tout pr oﬁl d’utilité u ∈ F , il existe λ 0 tel que p our tout λ < λ 0 , il existe une st r até gie d’é quilibr e public et p arfait du jeu st o chastique dont l’utilité à long terme vaut u ∈ F . Il faut noter qu’une telle car actérisation de la région d’uti- lités a t teigna bles est très puissante. En eﬀet, la technique classique p our obtenir la rég ion d’utilités atteigna bles con- sisterait à déterminer toutes les stratégies p ossibles po ur les joueurs puis de calc uler les utilités corresp ondantes. Dans un jeu très simple où chaque joueur n’aurait le choix qu’ent re deux niveaux de puiss ance à chaque étap e, il fau- rait c o nsidérer 2 N stratégies p ossibles, a vec N le no m bre d’étape s du jeu. D’après [2], le F olk théo r ème nous a ut o- rise à co ns id ér er uniquement les stratég ies dites de Ma rk ov sans p erte d’optimalité, le nombre de stratégies à étudier se r éduit donc à 2 | Γ | av ec | Γ | le nombre d’états de canaux. 3.2 Stratégie de Sélections des Meilleurs Utilisateurs Obtenir une région d’utilités atteignables est une chose, mais il reste à déﬁnir formellement des stra t ég ies e ﬃca ces dans cette r égion. C’est ce que no us pr o posons de faire av ec l’introduction d’une str a tégie dite de Séle ction des Meil leurs U tili steu rs . La stratég ie prop osée es t bas é e sur le p oin t de fonction- nemen t pré s en té dans [8] : ∀ i ∈ K , ˜ p i ( t ) = σ 2 η i ( t ) ˜ γ K 1 − ( K − 1) ˜ γ K (6) où ˜ γ K est l’unique s olution non nulle de x (1 − ( K − 1) x ) f ′ ( x ) − f ( x ) = 0 ∗ . (7) Contrairemen t au cas du jeu rép été o ù les g a ins des ca- naux sont co nstan ts, quand ces derniers v arient à c haque étap e, la stratégie consistant à ce que chaque joueur émette au point de fonctionnemen t (6) n’est plus optimale. Il se trouve qu’on obtien t de meilleurs résultats en termes de bien-être so cial si on réduit l’ensemble des joueur s émet- tant au po in t de fonctionnement. Cette appro che est int i- tulée stratégie de Séle ction des Meil leurs Utilisateurs , elle est ca ratérisée de la manière suiv an te. A chaque étap e t du jeu, le r écepteur ﬁxe K ′ t ⊂ K , l’ensemble optimal de joueurs émettant au p oint de fonc- tionnemen t (6) po ur ma ximiser la somme des utilités ins- tant a nnées des joueurs. Pour chaque joueur i ∈ K : – Si i ∈ K ′ t , il lui est recommandé d’émettre au p oin t de fonctionnement (6) à l’étape t . – Si i / ∈ K ′ t , il lui est demandé de ne pas émettre à cette étap e. Il faut bien noter que le comp ortement des joueurs n’est pas imp osé, le récepteur env o ie seulement des reco mman- dations aux joueur s. Pour assurer que ce tte stratégie soit un équilibre, un mécanisme de punition est établi : si un joueur dévie de la stratégie, les autres joueurs jouent l’équilibre de Nash en un co up p our le r estan t du jeu. L’équilibre de la stratégie est a ssuré si le maximum (en termes d’utilité) que p eut gagner un joueur en déviant à une étap e du jeu est inférieur à ce qu’il v a pe r dre en étant puni par les autres joueurs jusqu’à la ﬁn du jeu. Nous obtenons alors la condition d’éq ui libre suiv ante : Théorème 5 (Équili br e de la stratégie) L a stra té gie SMU est un é quilibr e du jeu sto chastique si ∀ i ∈ K λ ≤ E [ u i ( p smu , η )] − E [ u i ( p ∗ , η )] Rη max σ 2 f ( β ∗ ) β ∗ + E [ u i ( p smu , η )] − E [ u i ( p ∗ , η )] (8) av ec p smu le proﬁl de puissance résultant de l’applica t ion de la stra t ég ie SMU et p ∗ et β ∗ resp ectiv ement le proﬁl de puissance et le RSIB corresp ondant à l’équilibre de Nash en un co up. La complexité de calcul nécessaire à l’éxecution de cette stratégie est faible puisqu’on p eut pro uver qu’à débit d’émis- sion éga l, la sélection optimale de k joueurs p our émettre au po in t de fonctionnement (6) est l’ensemble des k joueurs av ec le s meilleurs gains de canaux. Ainsi dans un jeu à K joueur , le récepteur doit comparer K co mbinaisons de joueurs et no n 2 K . 4 Résultats n umériques P our l’obtention de résultats numériques, nous utilisons la fonction d’eﬃcacité f ( γ ) = e − a γ av ec a = 2 R − 1 . Ce t te fonction est in tro duite dans [1]. 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Utilité moyenne du joueur 1 (bit/J) Utilité moyenne du joueur 2 (bit/J) Région atteignable SMU Nash en un coup Point de fonctionnement frontière Minmax Figure 1 – Région atteignable et utilités moy ennes de diverses stratégies po ur un jeu à 2 joueurs. La ﬁgure 1 illustre la rég io n a tt eig nable p our un jeu à 2 joueurs et 2 éta t s de canaux (av ec η max η min = 4 ) en consi- dérant toutes les stratégies p ossibles. La fro n tière min- max délimite la rég ion d’équilibre. Les utilités moy ennes de SMU, du p oin t de fonctionnement et de l’équilibre de Nash en un co up sont également r eprésen tées à l’int ér ieur de cette régio n. Notons q ue que la stratégie SMU P are to - domine les autres stratégies considérées. La simu la tio n prés e ntée en ﬁgure 2 co mpa re les utilités instantannées moy ennes de quatre mécanismes de contrôle de puissance en fonction du nombre d’émetteurs. P our cette simulation, on considère un nombre ﬁni de g ains de canal. La loi d’évolution des gains des canaux suit la pro - priété de Marko v, c’est-à -dire qu’il existe une ma tr ice de probabilité de transtion en tre l’état des canaux à l’instant t et l’état des cana ux à l’instan t t + 1 . Cette ma rice ainsi que les états de gains de canal a ccessibles sont les mêmes po ur tous les joueurs. A trav ers l’étude de ces quatres mé- canismes, nous étudions les per fo rmances a tt eig nables en fonction du caractère centralisé o u déc e ntralisé du méca- nisme ainsi que de la quantité d’information disp onible sur le système. Ces mécanismes sont les suiv an ts : – Une version c e ntralisée de SMU, dans laquelle le ré- cepteur c hois it q ui émet à chaque tour et imp ose la puissance d’émiss io n en conna isan t les g ains des ca- naux à l’insta n t t . Dans le mo dèle co nsidéré, les émet- teurs appliquent à l’insta nt t + 1 la puissance d’émis- sion décidée à l’instant t . Ce r et a rd s e justiﬁe par un temps de transmissio n entre le récepteur et les émet- teurs. – SMU, p our lequel le récepteur déc ide uniquement l’en- 1 2 3 4 5 6 7 8 9 10 0 0.5 1 1.5 2 2.5 3 3.5 Nombre de joueurs Utilité moyenne (bit/J) SMU SMU centralisée Point de fonctionnement Nash myope Figure 2 – Utilités moy ennes de qua tr e mécanismes de contrôle de puissance en fonctio n du nombre d’émetteurs . semble des émetteurs conseillé à c haque tour du jeu. Chaque émetteur connaissa nt le gain de son cana l et le nombres des a ut re s émetteurs qui von t transmettre av ec lui, il ﬁxe lui-même sa puissance d’émission. De la même manière q ue pr é cédemmen t, on pr e nd en compte le retard de trans mis s ion en tre le récepteur et les émeteurs. L ’ensem ble des joueurs qui émettent à l’instant t + 1 est donc déc idé pa r le r écepteur à l’instant t . – La stra tégie rep osant sur le po in t de fonctionnement développée dans [8]. L’appro c he est encore plus dé- cent r a lisée puisq ue tous les émetteurs ﬁxent leur puis- sance à chaque tour en co nn a issan t le gain de leur ca- nal et le nombre de joueurs sans rec o mmandation de la part du récepteur. – Un équilibre de Nash "my op e". Dans ce cas, les émet- teurs n’on t aucune information sur le sys t ème mis à part l’esp érance du gain de leur ca nal et le no m bre de joueur s. Ils se conten ten t donc de jouer l’équilibre de Nas h statique. Il est intéressan t de noter que SMU oﬀre de meilleures per formances q ue les trois autr e s mécanismes. En ce qui concerne l’appro c he centralisée, le fait que la puissa nce d’émission so it connu e des é metteurs avec un temps de retard par r apport à l’état des gains des canaux est un vé- ritable handicap qui n’est co mp ensé que p our un nombre suﬃsant d’émetteurs. 5 Conclusion et p ersp ectiv es Dans un réseau sans ﬁl distribué où les émetteurs sont des agents égo istes libres de choisir leur puissance d’émis- sion p our chaque paquet, les interactions à long terme méritent d’être étudiées. Le cadre des jeux sto c hastiques per met de prendre e n compte le car actère rép été de ces in tera ctions ainsi que les v ariatio ns des gains des canaux d’un pa quet au suiv ant. Cette appro c he no us per met no- tammen t de caractér iser la région des utilités atteignables. Il appar aît qu’éta n t données les interactions s ur à lo ng terme entre les émetteurs, ces derniers p euv ent av o ir inté- rêt à ne pas émettre certains paquets si leurs conditions de canal sont trop mauv aises. Cela nous mène à établir une stratégie de c o n trôle de puissance fondée sur le pa rtage tempor el q ui se mon tre p erforman te en termes d’eﬃcacité énergétique. Les p ersp ectiv es de ce tr av ail sont d’intégrer dans le contrôle de puissance plusieurs a spects visa n t à mieux prendre en c o mpt e les cara ctéristiques des ﬂux d’informa- tion dans des rés eaux réels : la pos sibilit é de tolérer un re- tard sur l’émiss ion d’un paquet ( delay toler ant networks ) ; la p ossibilité d’av oir un ﬂux de paquets sp oradique ; le fa it que la taille mémoire de sto c k age des paq uets à l’émetteur est ﬁnie. Références [1] E. V. B elmega, S. Lasaulce, a nd M. Debbah. P o- wer allo cation games for MIMO multiple acce s s chan- nels with coo rdination. T r ans. Wir eless. Comm. , 8(6) :318 2–3192, 20 09. [2] P . K. Dutta. A folk theorem for sto c hastic ga mes. Journal of Ec onomic The ory , 66(1) :1 – 3 2 , 1 995. [3] D. F udenberg and Y. Y amamoto. The folk theorem for irreducible sto c hastic ga mes with impe r fect public monitoring. Journal of Ec onomic The ory , In Press, Corrected Pro of, 201 1. [4] D. J. Go odman a nd N. B. Ma nda yam. Po wer co n trol for wireless data. IEEE Person. Comm. , 7 :48 – 54, 2000. [5] J. Hörner , T. Sugay a, S. T ak ahashi, and N. Vieille. Re- cursive metho ds in discounted sto c hastic games : An algorithm for delta appro ac hing 1 and a folk theor em. Cowles F oundation Discussion Papers 1742, Cowles F oundation for Resea rc h in Economics, Y ale Univer- sity , December 2009 . [6] L. Shapley . Sto c hastic g a mes. Pr o c e e dings of the Na- tional A c ademy of Scienc es of t h e Unite d States of Ameri c a , 39(1 0 ) :1095– 1100, 195 3 . [7] S. Sorin. R ep e ate d Games with Complete In f ormation, in Hanb o ok of Game The ory with Ec onomic Applic a- tions , volume 1. Elsevier Science Publishers, 1992 . [8] M. Le T reust and S. Lasa ulce. A rep eated ga me formu- lation of energy-e ﬃcient decentralized p o wer control. IEEE T r ans. on Wir eless Commun. , 2 010. [9] B. D. V a n V een and K. M. Buckley . Beamforming : A versatile approa c h to spatial ﬁltering. IEEE Signal Pr o c essing Magazine , 5(2) :4–2 4, April 1988.

Jeux stochastiques et contr^ole de puissance distribue

Original Paper

Comments & Academic Discussion

Leave a Comment

Original Paper

Related Papers

Comments & Academic Discussion

Leave a Comment