Comment partitionner automatiquement des marches aleatoires ? Avec application `a la finance quantitative
We present in this paper a novel non-parametric approach useful for clustering Markov processes. We introduce a pre-processing step consisting in mapping multivariate independent and identically distributed samples from random variables to a generic …
Authors: Gautier Marti, Frank Nielsen, Philippe Very
Comment partitionner automatiquement des mar ches aléatoir es ? A vec application à la finance quantitati ve Gautier M A RT I 1,2 , Frank N I E L S E N 2 , Philippe V E RY 1 , Philippe D O N NAT 1 1 Hellebore Capital Management 63, av enue des Champs-Elysées, 75008 Paris, France 2 Laboratoire d’Informatique de l’Ecole Polytechnique 1, rue Honoré d’Estienne d’Orves, 91120 P alaiseau, France gautier.marti@polytechnique.edu, nielsen@lix.polytechnique.fr philippe.very@helleborecapital.com, philippe.donnat@helleborecapital.com Résumé – Nous présentons dans cette communication une approche non paramétrique pour regrouper automatiquement des séries temporelles suiv ant une marche aléatoire. Nous introduisons d’abord une étape de pré-traitement qui consiste à transformer les réalisations indépendantes et identiquement distribuées des incréments du processus de Markov en un vecteur représentant sans perte toute l’information disponible de ces séries temporelles, et la factorisant en une composante dépendance et une composante distribution. Nous définissons ensuite une distance entre ces représentations tenant compte des deux types d’information et permettant d’en controler l’importance pour le partitionnement automatique à l’aide d’un seul paramètre. Ce paramètre de mélange peut être appris ou manipulé par un expert à des fins exploratoires comme illustré par l’étude des séries temporelles financières. Des expériences, implémentations et résultats sont disponibles sur http://www.datagrapple.com . Abstract – W e present in this paper a novel non-parametric approach useful for clustering Markov processes. W e introduce a pre-processing step consisting in mapping multiv ariate independent and identically distrib uted samples from random variables to a generic non-parametric representation which factorizes dependency and marginal distribution apart without losing any . An associated metric is defined where the balance between random variables dependency and distribution information is controlled by a single parameter . This mixing parameter can be learned or played with by a practitioner, such use is illustrated on the case of clustering financial time series. Experiments, implementation and results obtained on public financial time series are online on a web portal http://www.datagrapple.com . 1 Intr oduction Les marches aléatoires peuvent être utilisées pour partition- ner les données, elles constituent par exemple un point de vue de la classification spectrale [7]. Dans cette communication, nous nous intéresserons au problème in verse : partitionner des marches aléatoires. Ces processus stochastiques sont un impor- tant outil de modélisation des séries temporelles financières, sav oir les regrouper dans des groupes homogènes statistique- ment peut permettre d’établir de meilleurs indicateurs de risque que la simple « v aleur à risque ». Pour ef fectuer ce partitionne- ment automatique des marches aléatoires, nous dev ons dispo- ser d’une représentation de celles-ci ainsi que d’une distance entre les représentations. En général, représentation et distance idoines ne sont pas connues et des heuristiques sont utilisées comme les deux décrites en légende de la Figure 1. Dans le cas restreint des séries temporelles s’écriv ant comme la somme P i X i de v ariables aléatoires X i indépendantes et identique- ment distribuées (i.i.d.), nous proposons en Section 2 distance et représentation adaptées et mathématiquement fondées. Celles- ci trav aillent sur la série temporelle des incréments X i portant toute l’information des marches aléatoires considérées. Finale- ment, en Section 3 nous présentons brièvement une application aux séries temporelles financières. Pour une étude plus appro- fondie et dav antage d’expériences, le lecteur pourra se référer à http://www.datagrapple.com , portail se consacrant au partitionnement automatique des séries temporelles, notam- ment issues du marché des couvertures de défaillance. F I G U R E 1 – Pour regrouper ces ex emples de marches aléa- toires, deux critères sont utilisés : pour celles de gauche, la forme du signal ; celles de droite sont similaires à transforma- tions homothétiques près. 2 Une représentation non paramétrique des mar ches aléatoires Soit (Ω , F , P ) un espace de probabilité. Soit V l’espace des variables aléatoires réelles continues définies sur (Ω , F , P ) . Soient U l’espace des variables aléatoires sui vant une loi uni- forme sur [0 , 1] et G l’espace des fonctions de répartitions abso- lument continues. Nous définissons maintenant une représen- tation non paramétrique des vecteurs aléatoires qui capture et sépare sans perte la partie comportement joint des variables de leur distribution propre. Soit T l’application qui associe à un vecteur aléatoire X = ( X 1 , . . . , X N ) sa représentation non pa- ramétrique, élément de U N × G N , définit comme suit : T : V N → U N × G N (1) X 7→ ( G X ( X ) , G X ) où G X = ( G X 1 , . . . , G X N ) , G X i étant la fonction de réparti- tion de X i . T est une bijection et ainsi préserve la totalité de l’infor- mation. La Figure 2 illustre cette projection sur un exemple concret issu de la finance. On peut remarquer que ce résultat réplique le théorème de Sklar [6], résultat fondateur de la théo- rie des copules. Néanmoins, nous n’utilisons pas ici le cadre générique de cette théorie et nous verrons par la suite où cette analogie s’arrête. Nous exploitons ensuite cette représentation pour définir une distance d θ entre les variables aléatoires qui prend en compte à la fois la distribution des marginales et leur comportement joint. Soit ( X , Y ) ∈ V 2 . Soient G X , G Y leur fonction de réparti- tion. Nous définissons la distance suiv ante, dépendante du pa- ramètre θ ∈ [0 , 1] : d 2 θ ( X, Y ) = θ d 2 1 ( G X ( X ) , G Y ( Y )) + (1 − θ ) d 2 0 ( G X , G Y ) , av ec d 2 1 ( G X ( X ) , G Y ( Y )) = 3 E [ | G X ( X ) − G Y ( Y ) | 2 ] , (2) et d 2 0 ( G X , G Y ) = 1 2 Z R r dG X dλ − r dG Y dλ ! 2 d λ. (3) En particulier, nous obtenons d 0 la distance d’Hellinger , f - div er gence qui quantifie la similarité entre deux distributions et qui garantit la monotonicité de l’information, propriété qui assure que la distance entre des histogrammes grossiers est moindre que la distance entre des histogrammes plus précis ; d 1 = p (1 − ρ S ) / 2 est une distance de corrélation mesurant la dépendance statistique entre deux variables aléatoires à l’aide de ρ S , corrélation de Spearman entre X et Y . Remarquons que pour θ ∈ [0 , 1] , 0 ≤ d θ ≤ 1 et pour 0 < θ < 1 , d θ est une distance métrique. Pour θ = 0 ou θ = 1 , l’axiome de sépa- ration n’est pas vérifié. Cette distance est également inv ariante par transformations monotones, propriété désirable car elle af- franchit de l’arbitraire du choix des unités ou de la méthode de mesure (que ce soit l’appareillage ou la modélisation mathéma- tique) du signal. Pour appliquer la distance proposée sur des données échan- tillonnées, nous définissons alors une estimation de d θ . La dis- tance d 1 trav aillant avec des distributions uniformes continues peut être approximée de manière discrète par des statistiques de rang qui en sus d’être robustes aboutissent à une analogie avec le formalisme des copules : la statistique de rang utilisée cor- respond à une coordonnée de la copule empirique de Deheuvels [1] qui est un estimateur non paramétrique et non biaisé con ver - geant uniformément [2] vers la copule sous-jacente au proces- sus. La distance d 0 peut être approximée par sa forme discrète trav aillant sur une estimation des densités mar ginales obtenues par histogrammes, par exemple. Pour calculer d 1 , nous av ons besoin d’une fonction de rang bijectiv e et puisque nous consi- dérons l’application aux séries temporelles, il est naturel de pri- vilégier l’ordre d’arrivée pour départager les ég alités. Soient ( X i ) M i =1 les M réalisations de X ∈ V . Soit S M le groupe des permutations de { 1 , . . . , M } et σ ∈ S M une per- mutation quelconque, disons σ = I d { 1 ,...,M } . Une fonction de rang bijectiv e pour ( X i ) M i =1 peut être définie comme une fonc- tion rk X : { 1 , . . . , M } → { 1 , . . . , M } (4) i 7→ # { k ∈ { 1 , . . . , M } | P σ } av ec P σ ≡ ( X k < X i ) ∨ ( X k = X i ∧ σ ( k ) ≤ σ ( i )) . Soient ( X i ) M i =1 et ( Y i ) M i =1 les M réalisations des variables aléatoires X , Y ∈ V . Une distance empirique entre les réalisa- tions de ces variables aléatoires peut être définie par ˜ d 2 θ ( X i ) M i =1 , ( Y i ) M i =1 a.s. = θ ˜ d 2 1 + (1 − θ ) ˜ d 2 0 , (5) av ec ˜ d 2 1 = 3 M 2 ( M − 1) M X i =1 rk X ( i ) − rk Y ( i ) 2 (6) et ˜ d 2 0 = 1 2 + ∞ X k = −∞ q g h X ( hk ) − q g h Y ( hk ) 2 , (7) le paramètre h étant un paramètre de lissage approprié, et g h X ( x ) = 1 M P M i =1 1 {b x h c h ≤ X i < ( b x h c + 1) h } étant un histogramme de densité estimant la fonction de densité de probabilité g X à partir des ( X i ) M i =1 , les M réalisations de la variable aléatoire X ∈ V . 3 A pplication au partitionnement auto- matique de séries temporelles finan- cièr es Nous illustrons notre approche sur les séries temporelles des volumes traités sur le marché des couv ertures de défaillance [3] (CDS). Nous prenons en compte les N = 658 actifs ayant des volumes reportés depuis juillet 2010. En sus d’être des don- nées accessibles publiquement (fournies par DTCC - http: F I G U R E 2 – L ’approche présentée en résumé : deux séries temporelles sont projetées sur l’espace dépendance ⊕ distribution. //www.dtcc.com/ ) contrairement aux prix des CDS, ces séries temporelles sont très bruitées et font montre de moins de corrélations évidentes que les séries de prix [4] (cf. Figure 3 et Figure 4 pour une comparaison), ce qui rend ce jeu de données intéressant pour notre méthode. A notre connaissance, il s’agit de la première fois qu’un papier s’intéresse au regroupement automatique de séries temporelles des volumes traités sur un marché financier . F I G U R E 3 – Les prix de CDS de deux industries entre jan vier 2006 et jan vier 2015 : les entreprises financières françaises (en bleu) et les cimentiers (en rouge) ; observez la corrélation im- portante à l’intérieur de chaque secteur industriel. Notre but est de comprendre comment ces séries temporelles se regroupent lorsque nous considérons uniquement leur com- portement joint (notre approche avec θ = 1 ) ou en se concen- trant seulement sur la proximité de la distribution de leurs vo- lumes traités (notre approche av ec θ = 0 ), et finalement lorsque nous prenons en compte la totalité de l’information (notre ap- proche av ec θ = 0 . 5 ). Nous estimons d’abord le nombre de groupes dans chaque cas grâce à un critère de stabilité [5] et nous trouvons K 1 = 3 , K 0 = 5 et K 0 . 5 = 7 respecti vement. La T able 1 affiche quelques caractéristiques (espérance et quantiles) de la distribution des K 0 . 5 = 7 groupes trouvés en utilisant la totalité de l’information. Nous pouvons remarquer F I G U R E 4 – Les volumes de CDS traités selon DTCC ; En bleu, les entreprises financières françaises et en rouge les volumes traités sur les cimentiers tels que reportés entre juillet 2010 et jan vier 2015. que ces groupes correspondent en fait aux K 0 = 5 groupes trouvés en utilisant uniquement l’information de distribution dont les espérances et quantiles sont reportés dans la T able 2. Cependant, ces indicateurs sur la distributions ne permettent pas d’expliquer les différences entre les groupe 3 et 4 qui se ressemblent pour ces mesures, idem pour les groupes 5 et 6. Concernant { C 0 . 5 1 , C 0 . 5 2 , C 0 . 5 7 } , nous pouvons d’ores et déjà constater que C 0 . 5 1 est composé des CDS ayant un important volume traité, notamment les CDS sur la dette souveraine de pays tels que le Brésil, la Chine, l’Allemagne, la France, l’Ita- lie, la Russie et l’Espagne. C 0 . 5 2 est constitué des entreprises financières ainsi que de quelques fournisseurs d’éner gie qui re- présentent les entités les plus activement traitées sur le mar- ché des couvertures de défaillance, en dehors des dettes sou- veraines. C 0 . 5 7 se compose des entreprises asiatiques, notam- ment japonaises, dont les CDS sont relativ ement peu traités, les rendements étant très faibles. Pour comprendre les dif fé- rences entre les groupes C 0 . 5 3 , C 0 . 5 4 et C 0 . 5 5 , C 0 . 5 6 , nous étu- dions les résultats du regroupement automatique en utilisant seulement les comportements joints, c’est-à-dire les K 1 = 3 groupes { C 1 1 , C 1 2 , C 1 3 } . C 1 1 est essentiellement composé d’en- tités ayant une liquidité croissante, c’est-à-dire une tendance T A B L E 1 – Les K 0 . 5 = 7 groupes obtenus av ec θ = 0 . 5 C 0 . 5 1 C 0 . 5 2 C 0 . 5 3 C 0 . 5 4 C 0 . 5 5 C 0 . 5 6 C 0 . 5 7 Mean 441 84 32 29 17 17 8 Quantile 10% 116 46 18 17 8 5 4 Quantile 90% 924 141 50 44 29 36 15 Size 13 89 169 79 161 90 57 T A B L E 2 – Les K 0 = 5 groupes obtenus av ec θ = 1 C 0 1 C 0 2 C 0 3 C 0 4 C 0 5 Mean 458 92 40 22 10 Quantile 10% 196 60 29 16 4 Quantile 90% 924 139 51 29 15 haussière des volumes traités, et correspond au groupe C 0 . 5 6 . C 1 2 contient les CDS des entreprises européennes considérées comme étant sûres par les agences de notations, ce marché est connu pour être très fortement corrélé en comparaison de ses équiv alents américain et asiatique. C 1 3 semble rassembler le reste des actifs ne partageant pas de points communs évidents. Nous pensons que ces volumes traités constituent un jeu de données intéressant pour illustrer l’usage de notre méthode car cela montre le gain qu’on obtient à exploiter l’information to- tale disponible dans ces marches aléatoires. En sus, nous trou- vons que le regroupement automatique optimal (d’un point de vue de la stabilité des groupes par rapport à des petites pertur- bations) est constitué des groupes qui sont eux-mêmes résul- tats optimaux des regroupements automatiques lorsque l’algo- rithme trav aille seulement sur la partie « dépendance » de l’in- formation ou seulement sur la partie « distribution » : les CDS sont regroupés en 5 groupes pouvant être expliqués par le vo- lume moyen traité et qui résume approximativ ement l’informa- tion de distribution, cependant deux groupes supplémentaires émergent à cause de l’information sur les comportements joints qui raffine cette partition en 5 groupes : un groupe émerge à cause des fortes corrélations présentes dans le marché européen des actifs sûrs, et l’autre rassemble les entités dont le volume des transactions est en augmentation (Figure 5). 4 Discussion Dans cette communication, nous avons présenté une nou- velle représentation, mathématiquement fondée, des séries tem- porelles suiv ant une marche aléatoire. Cette représentation peut être utilisée pour le partitionnement automatique des séries tem- porelles comme illustré en Section 3 par l’exemple des volumes traités, mais est également adaptée à l’apprentissage supervisé. Dans cette communication, nous av ons montré son utilité sur des données réelles, néanmoins nous av ons également validé l’approche sur des cas tests engendrés par des modèles de cor- rélations hiérarchiques se subdivisant en groupes de distrib u- tion. Nous nous concentrons maintenant à prouver la consis- F I G U R E 5 – Des dynamiques inv erses pour C 0 . 5 5 et C 0 . 5 6 tance statistique d’une telle approche. Les résultats expérimen- taux, des données ainsi que des implémentations, sont dispo- nibles sur http://www.datagrapple.com se consacrant au partitionnement automatique de séries temporelles. Remer ciements Merci à V alentin Gef frier et Benjamin d’Hayer pour leur re- lecture attentiv e, et Laurent Beruti pour son retour et son ex- pertise sur le marché des CDS. Référ ences [1] P . Deheuvels. La fonction de dépendance empirique et ses pr opriétés. Un test non paramétrique d’indépendance . Acad. Roy . Belg. Bull. Cl. Sci.(5), 1979. [2] P . Deheuvels. An asymptotic decomposition for multiva- riate distribution-fr ee tests of independence . Journal of Multiv ariate Analysis, 1981. [3] J. Hull. Options, futures, and other derivatives . Pearson Education, 2006. [4] D. Kane. Modelling single-name and multi-name cr edit derivatives . John W iley & Sons, 2011. [5] O. Shamir et T . Naftali. Model selection and stability in k- means clustering . Conference on Learning Theory , 2008. [6] A. Sklar . F onctions de répartition à n dimensions et leurs mar ges . Uni versité P aris 8, 1959. [7] U. V on Luxb urg. A tutorial on spectral clustering . Statis- tics and computing, 2007.
Original Paper
Loading high-quality paper...
Comments & Academic Discussion
Loading comments...
Leave a Comment