MASTER AMSE 1 & MAGISTERE 2 QUENTIN LIANCE & GILLES HACHEME AIX MARSEILLE’s SCHOOL OF ECONOMICS Econométrie appliquée à SAS [Attirez l’attention du lecteur avec une citation du document ou utilisez 1 Table des matières INTRODUCTION...................................................................................................................................................................... 3 Cadre théorique .......................................................................................................................................................................... 5 Méthodologie de collecte et spécification des variables : ........................................................................................................... 5 Collecte des données : ........................................................................................................................................................... 5 Identification et spécification de la variable expliquée et des variables explicatives : .......................................................... 6 Variable dépendante : ....................................................................................................................................................... 6 Variables explicatives : ..................................................................................................................................................... 6 Présentation et analyse des résultats de Statistiques descriptives ............................................................................................... 7 Variable qualitative : ............................................................................................................................................................. 7 Variables quantitatives ........................................................................................................................................................ 10 Valeur de transfert (val) : ................................................................................................................................................ 10 Age du joueur (âge) : ...................................................................................................................................................... 10 Nombre de matchs joués :............................................................................................................................................... 11 Nombre de buts marqués (nb_buts): ............................................................................................................................... 11 Nombre de buts marqués contre son propre camp (nb_bcc) : ......................................................................................... 12 Nombre de cartons jaunes (nb_cjau) :............................................................................................................................. 13 Choix du modèle ...................................................................................................................................................................... 13 Régression Econométrique :..................................................................................................................................................... 14 Estimation du modèle .......................................................................................................................................................... 14 Analyse et interprétation des résultats ................................................................................................................................. 15 Age : ............................................................................................................................................................................... 15 Taille (taille2) : ............................................................................................................................................................... 15 Nombre de matchs joués (nb_buts): ............................................................................................................................... 15 Nombre de buts marqués (n_buts): ................................................................................................................................. 16 Nombre de buts marqués contre son propre camp (nb_bcc) : ......................................................................................... 16 Nombre de cartons jaunes (nb_jau) : .............................................................................................................................. 16 Test de stabilité du modèle (Test de Chow) : ...................................................................................................................... 16 Première estimation : ...................................................................................................................................................... 17 Deuxième échantillon : ................................................................................................................................................... 17 Troisième échantillon ..................................................................................................................................................... 17 Les test ............................................................................................................................................................................ 18 Analyse et interprétation des résultats ................................................................................................................................. 19 Impact de chaque variable explicative sur la variable expliquée (Ceteris paribus) : ....................................................... 19 Nb_cjau : ........................................................................................................................................................................ 22 Synthèse des impacts des variables explicatives sur la variable expliquée ..................................................................... 22 Le bon joueur au bon poste ...................................................................................................................................................... 24 Résultats de la classification par la méthode des k plus proches voisins : ........................................................................... 25 Exemple de deux joueurs mal classés (voir tableau 13-4 en annexe) .................................................................................. 25 Exemple de deux joueurs bien classés ................................................................................................................................. 26 Conclusion ............................................................................................................................................................................... 27 Références bibliographiques .................................................................................................................................................... 28 [Attirez l’attention du lecteur avec 2 Annexe ..................................................................................................................................................................................... 29 Codes Python : .................................................................................................................................................................... 29 Extraction des fichiers concernant chaque joueur transféré (pour les 5 championnats) .................................................. 29 Tri et constitution de la base de données à l’aides des fichiers de chaque joueur ........................................................... 30 Codes SAS : ........................................................................................................................................................................ 35 Tableau 4 : effectifs et fréquences au sein des modalités de la variable poste ................................................................ 35 Graphique 1 : poste*val .................................................................................................................................................. 36 Graphique 2 : poste * Val ( répartition de la richesse totale par poste ) ......................................................................... 36 Graphique 3 : poste * Val_cor ........................................................................................................................................ 36 Tableau 5 : statistiques de base des variables quantitatives ........................................................................................... 37 Graphique 4 : age*val ..................................................................................................................................................... 37 Tableau 6 : statistiques de base de nb_buts dans le sous-échantillon attaquants............................................................. 37 Graphique 5 : nb_buts*val .............................................................................................................................................. 37 Tableau 7 : statistiques de base de nb_ bcc dans le sous-échantillon défenseurs ........................................................... 37 Graphique 6 : nb_bcc*val ............................................................................................................................................... 37 Tableau 8 : statistiques de base de nb_cjau dans le sous-échantillon défenseurs ............................................................ 38 Estimation du modèle général......................................................................................................................................... 38 Premier échantillon :....................................................................................................................................................... 38 Deuxième échantillon : ................................................................................................................................................... 38 Troisième échantillon ..................................................................................................................................................... 38 Estimations des trois sous-modèles : .............................................................................................................................. 38 Classification par la méthode des k plus proches voisins ............................................................................................... 39 Tableaux .............................................................................................................................................................................. 39 Estimation du modèle général......................................................................................................................................... 39 Premier échantillon :....................................................................................................................................................... 40 Deuxième échantillon : ................................................................................................................................................... 40 Troisième échantillon ..................................................................................................................................................... 41 Classification par la méthode des k plus proches voisins ............................................................................................... 42 Table de Fisher ...................................................................................................................................................................... 0 [Attirez l’attention du lecteur avec 3 INTRODUCTION En football, un transfert correspond au changement de club par un footballeur professionnel. Les clubs professionnels sont en général autorisés à transférer un joueur dans un autre club uniquement pendant une période définie, désignée marché des transferts ou mercato. Historiquement, les premiers joueurs sont principalement des étudiants. Gentlemen et ouvriers constituent la deuxième vague. On retrouve cette même évolution en dehors des îles Britanniques dans de nombreux pays. Les joueurs gardent le contrôle du jeu à ses débuts, puis dans la première moitié du XXe siècle, les dirigeants prennent l'ascendant au niveau professionnel comme amateur. Commence alors la longue période de l'«esclavage» avec des joueurs liés à vie à leurs clubs et transférables selon le bon vouloir des dirigeants qui s'arrangent pour tirer les salaires vers le bas. Par exemple, après 15 ans de carrière, l'international français Thadée Cisowski ne touchait que 400 francs français par mois en 1961, soit environ 30 % de plus que le salaire minimum en France à la même époque. Le mécanisme des transferts est profondément modifié par l'arrêt Bosman, une décision de la Cour de justice des Communautés européennes (CJCE) du 15 décembre 1995 qui abolit les frontières dans la Communauté européenne. Avant cet arrêt, le nombre des joueurs étrangers par club était limité et un club pouvait réclamer une indemnité de transfert pour un joueur ayant fini son contrat. Le marché des transferts aussi appelé mercato (Italianisme signifiant « marché ») désigne la période pendant laquelle les clubs professionnels de football sont autorisés à transférer ou à prêter leurs joueurs dans d'autres clubs. Habituellement, cette période se déroule pendant l'été, avant la reprise de la saison (trêve estivale) et pendant la coupure durant la période de fête de fin d'année (trêve hivernale). En dehors de ces périodes, un joueur ne peut être transféré ou prêté dans un autre club. Le premier mercato de la saison se situe pendant les vacances d'été et dure à peu près deux mois. Il commence après la fin de la saison, en suivant le calendrier de la plupart des championnats majeurs européens. En effet certains championnats comme celui de la Russie, du Brésil ou de l'Australie ont un calendrier différent. Cette période de transfert se termine peu après le début de la saison suivante, normalement entre le 30 juillet et le 2 septembre. En général, le mercato estival est le plus agité puisqu'il permet aux clubs professionnels de se renforcer en recrutant des joueurs pour la nouvelle saison, ou à l'inverse de "dégraisser" pour alléger leur masse salariale. Le deuxième mercato de la saison a lieu durant la trêve hivernale et dure tout le mois de janvier. [Attirez l’attention du lecteur avec 4 Les 10 transferts les plus élevés de l'histoire du football Tableau 1 : les 10 transferts les plus élevés de l’histoire du football Joueur Provenance Destination Transfert (en euros) Paul Pogba Juventus Manchester 110 millions United Gareth Bale Tottenham Real Madrid 99.7 millions Hotspur Cristiano Ronaldo Manchester Real Madrid 94 millions United Gonzalo Higuain SSC Naples Juventus 90 millions année 2016 2013 2009 2016 Neymar Santos FC FC Barcelone 83.3 millions 2013 Luis Suarez Liverpool FC FC Barcelone 82.5 millions 2014 James Rodriguez AS Monaco Real Madrid 80 millions 2014 Zinédine Zidane Juventus Real Madrid 75 millions 2001 Angel Di Maria Real Madrid 75 millions 2014 Kevin de Bruyne VfL Wolfsbourg Manchester United Manchester City 74 millions 2015 Source : Wikipédia Les transferts ont toujours existé dans le football et leur prix augmente rapidement. Le Britannique Alf Common est le premier joueur transféré pour 1 000 £ (1905). Ces montants étant de nos jours très élevés, nous nous sommes demandés quels pouvaient être les déterminants de la valeur de transfert d’un joueur de football. Les valeurs de transfert les plus élevées se retrouvent dans les championnats européens, en l’occurrence le top 5 : les premières divisions de l’Angleterre, de l’Espagne, de l’Italie, de la France, et de l’Allemagne. Nous nous focaliserons donc uniquement sur le top 5 européen dans le cadre de cette étude. [Attirez l’attention du lecteur avec 5 Cadre théorique Les études statistiques et économiques sur ce thème restent encore très rares. Néanmoins les quelques rares études faites nous suggèrent des variables clés et déterminantes pour l’évaluation de la valeur monétaire d’un joueur de football. Yuan (2013) -dans son papier “Predicting Market Value of Soccer Players Using Linear Modeling Techniques”-, trouve certaines variables ayant respectivement des impacts significatifs sur la valeur d’un joueur de football. Quelques-unes de ces variables sont : - Le poste occupé par un joueur sur le terrain Taille du joueur Nombre de buts marqués par le joueur Nous considérerons donc ces trois (3) variables dans notre étude, en y ajoutant d’autres que nous soupçonnons impacter la valeur de transfert d’un joueur : - Age du joueur Nombre de matchs disputés depuis le début de sa carrière Nombre de buts marqués contre son camp Nombre de cartons jaunes reçus au cours de sa carrière Méthodologie de collecte et spécification des variables : Collecte des données : Les bases de données open-source concernant les caractéristiques des joueurs de football du top5 européen restent quasiment inexistantes. Il existe néanmoins des sites internet publiant ces types de données, mais pas sous la forme de bases de données. Notre stratégie de collecte a donc été le Webscraping. Les différentes étapes de cette procédure sont : - - - - Identification d’un site assez crédible mettant en ligne les données qui nous intéressent : nous en avons trouvé plusieurs, mais celui que nous avons retenu est www.footballdatabase.eu Copie des codes sources de toutes les pages nous intéressant (des milliers) : ne pouvant faire cette copie manuellement, nous avons eu recours à de la programmation avec le langage Python afin d’automatiser la copie ; la copie des pages web s’est faite dans des fichiers texte, portant le nom du joueur concerné. Tri des codes sources et extraction des données : nous avons à nouveau eu recours à de la programmation python pour cette procédure, qui s’étendait à des milliers de fichiers ; nous avons pu extraire toutes les informations disponibles sur les pages consacrées à chaque joueur et qui pouvaient nous être utiles Copie des informations extraites dans un fichier CSV (Comma Separated Variable) : ce fichier constitue donc notre base de données exploitable sous SAS [Attirez l’attention du lecteur avec 6 Notons que notre base concerne uniquement le Mercato estival 2016. Après épurement de la base de données, le nombre total d’observations s’élève à 377. Identification et spécification de la variable expliquée et des variables explicatives : Variable dépendante : Notre étude a pour objectif de déterminer les facteurs expliquant la valeur de transfert d’un joueur, celle-ci étant de facto notre variable expliquée. Il s’agira d’une variable quantitative exprimée en millions d’euros et spécifique à chaque joueur. On utilisera l’abréviation vali pour désigner la valeur de transfert du joueur i. Variables explicatives : Tableau 2 : Variables explicatives quantitatives Variable Libellé Nom L’âge du joueur age Taille du joueur taille Nombre de matchs disputés depuis le début de carrière Nombre de buts marqués au cours de la carrière nb_matchs Nombre de buts marqués contre son propre camp au cours de la carrière Nombre de cartons jaunes reçus au cours de la carrière nb_bcc nb_buts nb_cjau Spécification et effet attendu sur la variable dépendante [(+) Si l’effet est positif et (-) si l’effet est négatif] Unité − : la performance du joueur Année devrait diminuer avec son âge, et donc sa valeur + : un joueur de grande taille devrait être plus à même de gagner des duels décisifs pour la victoire du club + : l’expérience du joueur devrait lui permettre d’éviter certaines erreurs, et donc d’être plus performant + : la capacité de marquer des buts est un élément déterminant de la qualité d’un joueur et donc sa valeur − : marquer contre son camp est une contre-performance sanctionnée par les clubs − : un joueur trop agressif risque de pénaliser son club [Attirez l’attention du lecteur avec Mètre Match But But Carton 7 Tableau 3 : Variable explicative qualitative Variable Libellé Modalités Nom Poste principal occupé par le joueur π βΆ ππππ πππ π βΆ π éπππππππ π βΆ ππππππ π βΆ πππéπππ π βΆ ππππππ {π βΆ πππππππππ poste Présentation et analyse des résultats de Statistiques descriptives Variable qualitative : Tableau 4 : effectifs et fréquences au sein des modalités de la variable poste poste gardien défenseur milieu latéral ailier attaquant N 21 64 173 33 9 77 PctN 5.57 16.98 45.89 8.75 2.39 20.42 On peut aisément remarquer que près de la moitié des joueurs constituant notre base joue en milieu de terrain, et naturellement la catégorie la moins représentée est celle des ailiers. En réalité, un attaquant peut-être ailier, et un ailier peut être attaquant. Pour constituer notre base, nous n’avons retenu que les postes principaux qu’occupent les joueurs (un joueur pouvant jouer à différents postes). Donc rares sont les joueurs qui occupent essentiellement le poste d’ailier. [Attirez l’attention du lecteur avec 8 Graphique 1 : poste*val 100 80 val 60 40 20 0 gardien défenseur milieu latéral ailier attaquant poste Le graphe nous révèle que les gardiens gagnent en général moins que les autres catégories de joueurs. Les milieux de terrains et les attaquants se distinguent des autres joueurs quant à leurs rémunérations. Répartition des rémunérations : Graphique 2 : poste * val ( répartition du budget total des transferts par poste ) Autre 143.15 défenseur 467.7 attaquant 905.3 milieu 1549.9 latéral 239.3 [Attirez l’attention du lecteur avec 9 Ce graphe révèle que près de la moitié des budgets de transfert des clubs est octroyée aux milieux de terrain. En observant ce graphe, on pourrait bien penser que les milieux de terrain sont les mieux payés, mais ce n’est pas forcément le cas. Ce graphe se trouve en effet biaisé par les effectifs recrutés au sein de chaque catégorie. Il serait donc judicieux d’utiliser les valeurs de transfert moyennes au sein de chaque catégorie, au lieu de la part de budget octroyée à chacune d’elles. Soit π£ππ_πππ la correction de π£ππ par les effectifs au sein de chaque catégorie de joueurs : ππ ππ ππ π=0 π=0 π=0 π£ππππ 1 π£πππ = ∑ π£ππ_πππππ = ∑ = ∑ π£ππππ ππ ππ π£πππ βΆ π£ππππ’π πππ¦ππ πππ πππ’ππ’ππ ππ ππ πππ‘éπππππ π π£ππ_πππππ βΆ π£ππππ’π ππππππéπ ππ’ πππ’ππ’π π ππ ππ πππ‘éπππππ π π£ππππ βΆ π£ππππ’π πππ ππππππéπ ππ’ πππ’ππ’π π ππ ππ πππ‘éπππππ π { ππ βΆ ππππππ‘ππ ππ ππ πππ‘éπππππ π Après correction de la part du budget total - octroyée à chaque catégorie de joueur- par les effectifs de chaque catégorie, on obtient ceci : Graphique 3 : poste * val _cor gardien 3.9095 défenseur 7.3078 attaquant 11.757 milieu 8.9591 ailier 6.7833 latéral 7.2515 On remarque aisément après correction, que les attaquants gagnent en moyenne clairement plus que les défenseurs : on observe une différence de salaire moyenne de près de 3 millions d’euros. [Attirez l’attention du lecteur avec 10 Variables quantitatives Tableau 5 : statistiques de base des variables quantitatives Variable Libellé val age taille poids nb_matchs nb_titu nb_min nb_buts nb_bcc nb_cjau nb_crou nb_select val age taille poids nb_matchs nb_titu nb_min nb_buts nb_bcc nb_cjau nb_crou nb_select N Moyenne Ecart-type Minimum Maximum 377 377 377 377 377 377 377 377 377 377 377 377 8.7675729 24.6366048 1.8169761 74.6233422 197.3448276 160.7984085 14476.58 27.9442971 0.3793103 27.6392573 1.6366048 13.0212202 11.9156964 3.3355017 0.0630297 6.4090434 111.5108903 97.7744457 8728.34 34.6450017 0.8973344 21.3695286 1.9914811 20.2159768 0.2500000 17.0000000 1.6600000 54.0000000 5.0000000 5.0000000 405.0000000 0 0 1.0000000 0 0 110.0000000 34.0000000 1.9600000 96.0000000 536.0000000 532.0000000 47713.00 273.0000000 8.0000000 120.0000000 16.0000000 113.0000000 Valeur de transfert (val) : Le joueur le moins valorisé du top 5 européen a été transféré à 250.000 euros et le plus valorisé à 110 millions d’euros, le salaire moyen étant de presque 9 millions d’euros. On note également que l’écart moyen de salaire entre joueurs est de 12 millions d’euros environ, écart non surprenant : en effet, le salaire d’un joueur est susceptible d’exploser ou de s’effondrer du jour au lendemain compte tenu de ses performances. Age du joueur (âge) : Le plus jeune joueur transféré -en cette dernière saison de transferts (2016)- a 17 ans et le plus âgé a 34 ans. L’âge moyen des joueurs transférés est de 25 ans. Graphique 4 : age*val 100 80 val 60 40 20 0 20 25 30 35 age Avec l’âge la probabilité d’avoir une valeur de transfert élevée devient de plus en plus faible. Cela reflèterait une baisse des performances avec l’âge, se répliquant sur la valeur de transfert du joueur. [Attirez l’attention du lecteur avec 11 Nombre de matchs joués : En moyenne chaque joueur aura disputé 197 matchs au cours de sa carrière. Néanmoins l’écart moyen du nombre de matchs disputés par joueur est de 111 matchs : cela reflète bien les différences importantes d’expérience entre joueurs. Nombre de buts marqués (nb_buts): Le nombre de buts moyen marqué par joueur est de 28. Cette mesure se trouve fragilisée par l’écart moyen de buts entre joueurs qui est de 35 buts. Les valeurs extrêmes restent très polarisées : le plus faible nombre de buts marqués par un joueur est tout simplement 0 et le nombre de buts maximum marqués est 273. Remarquons que tous les joueurs n’ont pas pour objectif premier de marquer des buts : c’est plutôt l’objectif premier des attaquants. En considérant uniquement les attaquants, on arrive à ce résultat : Tableau 6 : statistiques de base de nb_buts dans le sous-échantillon attaquants Variable d'analyse : nb_buts N Moyenne Ecart-type Minimum Maximum 77 62.5974026 49.5660802 3.0000000 273.0000000 Pour les 77 attaquants, le nombre moyen de buts est d’environ 63, l’écart moyen de buts entre joueurs étant de 50. Cela pourrait montrer les différences de performance entre attaquants. Néanmoins, ce nombre moyen de buts (63) représente plus du double du nombre moyen de buts au sein de tout notre échantillon (28). Le nombre de buts est probablement beaucoup plus un critère de performance des attaquants, plutôt qu’un critère de performance des autres catégories de joueurs. [Attirez l’attention du lecteur avec 12 Graphique 5 : nb_buts*val 100 80 val 60 40 20 0 0 50 100 150 200 250 nb_buts Régression val On remarque une corrélation linéaire positive entre la valeur d’un joueur et le nombre de buts qu’il marque : plus on marque, plus on gagne. Nombre de buts marqués contre son propre camp (nb_bcc) : En considérant l’ensemble des joueurs de notre base, le nombre moyen de buts marqués contre son propre camp est inférieur à un. Voici ce qu’on obtient en considérant uniquement les défenseurs : Tableau 7 : statistiques de base de nb_ bcc dans le sous-échantillon défenseurs Variable d'analyse : nb_bcc N Moyenne Ecart-type Minimum Maximum 64 1.2968750 1.5397350 0 8.0000000 On remarque aisément que les défenseurs marquent d’avantage de buts contre leur camp par rapport aux autres catégories de joueurs. Le nombre de buts moyens par défenseur est supérieur à un. En effet, les défenseurs constituent la garde rapprochée du gardien : on pourrait donc s’attendre à des problèmes de communication ou alors à des gestes maladroits de la part des défenseurs engendrant des buts non désirés. [Attirez l’attention du lecteur avec 13 Néanmoins, en croisant les variables val et nb_bcc (toutes les catégories de joueur étant prises en compte), on se rend compte qu’en général la probabilité de gagner un salaire élevé, diminue avec le nombre de buts marqués contre son camp : Graphique 6 : nb_bcc*val 100 80 val 60 40 20 0 0 2 4 6 8 nb_bcc Nombre de cartons jaunes (nb_cjau) : Le nombre moyen de cartons jaunes par joueur est de 28, l’écart moyen du nombre de cartons reçus entre joueurs étant de 21. En considérant uniquement les défenseurs on obtient ce tableau : Tableau 8 : statistiques de base de nb_cjau dans le sous-échantillon défenseurs Variable d'analyse : nb_cjau N Moyenne Ecart-type Minimum Maximum 64 38.9375000 27.6180726 1.0000000 120.0000000 Le nombre moyen de cartons jaunes est ici de 39 environ, ce qui est largement supérieur au nombre moyen de cartons au sein de tout l’échantillon : en effet, l’objectif premier de tout défenseur est de défendre les cages, et d’empêcher toute action pouvant engendrer un but adverse ; de fait, ils sont amenés à être plus agressifs que les autres catégories de joueurs. En résumé, les défenseurs reçoivent plus de cartons jaunes que les autres joueurs. Choix du modèle [Attirez l’attention du lecteur avec 14 Notre modèle se reposera sur la méthode d’évaluation des prix hédoniques. En économie, la régression hédonique ou théorie de la demande hédonique est une méthode de préférence révélée pour l'estimation de la demande et/ou de l'analyse de la valeur. Elle décompose l'objet analysé en ses constituants caractéristiques, et fournit une estimation de la valeur contributaire de chaque caractéristique. Une condition nécessaire pour que le bien composite à valoriser puisse être réduit à ses constituants est que le marché valorise ces parties constituantes. Notre modèle s’écrit donc : π£πππ = π1 + π2 ∗ πππ + π3 ∗ π‘ππππππ + π4 ∗ ππ_πππ‘πβπ π + π5 ∗ ππ_ππ’π‘π π + π6 ∗ ππ_ππππ + π7 ∗ ππ_ππππ’π + ππ Avec π = 1,2, … . ,377 ; π1 : la constante du modèle ; ππ , π = 2,3,4,5,6,7 : les impacts respectifs d’une unité additionnelle des variables explicatives -auxquelles sont rattachés ces coefficients- sur la variable dépendante ; et ππ le terme d’erreur associé à l’individu i Nous estimerons notre modèle à l’aide des Moindres Carrés Ordinaires (MCO). Régression Econométrique : Afin de prévenir tout problème d’hétéroscédasticité, nous procéderons à une correction de la matrice des variances covariance en utilisant la méthode de White. Estimation du modèle Pour effectuer la régression, nous utiliserons une variable dichotomique pour représenter la taille d’un joueur : 0 π π π‘πππππ ≤ 1,82 (π‘πππππ πππ¦ππππ) π‘πππππ2 = { 1 π ππππ [Attirez l’attention du lecteur avec 15 Tableau 9-4 : Résultats estimés des paramètres Variable DDL Valeur estimée des paramètres Erreur type Valeur du test t Pr > |t| Cohérent avec l'hétéroscédasticité Erreur type Valeur du test t Pr > |t| Intercept 1 48.07783 5.53274 8.69 <.0001 6.09870 7.88 <.0001 age 1 -2.26899 0.27442 -8.27 <.0001 0.31336 -7.24 <.0001 taille2 1 3.37410 1.09450 3.08 0.0022 1.22691 2.75 0.0063 nb_matchs 1 0.06001 0.01039 5.77 <.0001 0.01046 5.74 <.0001 nb_buts 1 0.08281 0.01944 4.26 <.0001 0.03628 2.28 0.0230 nb_bcc 1 -0.67136 0.68916 -0.97 0.3306 0.71689 -0.94 0.3496 nb_cjau 1 0.04089 0.03726 1.10 0.2732 0.03356 1.22 0.2239 Analyse et interprétation des résultats Nos analyses reposeront sur le modèle corrigé de l’hétéroscédasticité. Dans un premier temps, nous pouvons remarquer via la statistique de Fisher (voir tableau 9-2 en annexe) que le modèle est globalement significatif au seuil de 1%. Age : La variable « âge » est significative au seuil de 1%, sa P-value étant strictement inférieure à 0,01. L’âge impacte donc significativement la valeur de transfert d’un joueur. L’estimation nous montre que lorsqu’un joueur vieillit d’un an, sa valeur diminue d’environ 2,27 millions d’euros. Ce résultat est compréhensible car les aptitudes physiques d’un joueur (et par ricochet ses performances) diminuent avec l’âge. Taille (taille2) : La variable taille2 a un impact significatif sur la valeur de transfert d’un joueur, au seuil de 1% (Pvalue=0,0063<0,01). On en déduit qu’un joueur mesurant plus de 1,82m (taille moyenne de l’échantillon de joueurs) gagne environ 3,37 millions de plus qu’un joueur de taille inférieure ou égale à la moyenne. Nombre de matchs joués (nb_buts): La variable nb_matchs est significative au seuil de 1% (Pvalue<0,001 <0,01). L’estimation montre qu’un match supplémentaire, fait augmenter la valeur d’un joueur de 60.000 euros environ. Ce résultat est satisfaisant : en effet, le fait qu’un joueur ait participé à [Attirez l’attention du lecteur avec 16 beaucoup de matchs témoignerait de son expérience au sein d’une équipe et de sa capacité à contribuer à l’essor de son club. Nombre de buts marqués (n_buts): La variable nb_buts est significative au seuil de 5% (Pvalue=0,0230<0,05). Chaque but supplémentaire marqué est valorisé à hauteur de 83.000 euros environ. Ce qui confirme nos présomptions : chaque but vaut plus que de l’or. Nombre de buts marqués contre son propre camp (nb_bcc) : L’estimation du modèle nous révèle que le nombre de buts marqués contre son propre camp n’influe pas significativement sur la valeur de transfert du joueur (Pvalue=0,3496 >0,1). Cela pourrait s’expliquer par le fait que « marquer un but contre son propre camp » n’arrive pas tous les jours : c’est un évènement assez rare. Nombre de cartons jaunes (nb_jau) : La variable nb_jau n’a pas d’influence significative sur la variable expliquée (Pvalue=0.2239>0,1). Les clubs recruteurs prêtent donc peu d’attention à l’agressivité des joueurs qu’ils recrutent. Test de stabilité du modèle (Test de Chow) : Pour effectuer ce test, nous subdiviserons notre échantillon en trois groupes : Premier échantillon : Constitué par les gardiens, latéraux et défenseurs La taille de ce premier échantillon est de 118 joueurs Deuxième échantillon : Constitué des milieux de terrain La taille de ce deuxième échantillon est de 173 joueurs Troisième échantillon Constitué des attaquants et des ailiers La taille de ce troisième échantillon est de 86 joueurs Estimation du modèle, respectivement sur les trois sous-échantillons : [Attirez l’attention du lecteur avec 17 Première estimation : Tableau 10-4 : Résultats estimés des paramètres Variable DDL Valeur estimée des paramètres Erreur type Valeur du test t Pr > |t| Cohérent avec l'hétéroscédasticité Erreur type Valeur du test t Pr > |t| Intercept 1 38.94586 8.68875 4.48 <.0001 8.43694 4.62 <.0001 age 1 -1.82603 0.42123 -4.33 <.0001 0.40283 -4.53 <.0001 taille2 1 3.16325 1.78585 1.77 0.0793 1.38600 2.28 0.0244 nb_matchs 1 0.05924 0.01525 3.88 0.0002 0.01484 3.99 0.0001 nb_buts 1 0.12658 0.12558 1.01 0.3157 0.11344 1.12 0.2669 nb_bcc 1 -0.65589 0.77540 -0.85 0.3994 0.68594 -0.96 0.3411 nb_cjau 1 -0.00752 0.04869 -0.15 0.8776 0.03817 -0.20 0.8443 Deuxième échantillon : Tableau 11-4 : Résultats estimés des paramètres Variable DDL Valeur estimée des paramètres Erreur type Valeur du test t Pr > |t| Cohérent avec l'hétéroscédasticité Erreur type Valeur du test t Pr > |t| Intercept 1 50.28323 9.17129 5.48 <.0001 9.53559 5.27 <.0001 age 1 -2.40038 0.45908 -5.23 <.0001 0.49511 -4.85 <.0001 taille2 1 4.85905 1.87042 2.60 0.0102 2.31661 2.10 0.0375 nb_matchs 1 0.06552 0.01902 3.45 0.0007 0.01561 4.20 <.0001 nb_buts 1 0.07626 0.04840 1.58 0.1170 0.04578 1.67 0.0976 nb_bcc 1 -1.24150 2.01112 -0.62 0.5379 1.62912 -0.76 0.4471 nb_cjau 1 0.02814 0.06578 0.43 0.6694 0.05463 0.52 0.6072 Troisième échantillon [Attirez l’attention du lecteur avec 18 Tableau 12-4 Variable DDL Valeur estimée des paramètres Erreur type Valeur du test t Pr > |t| Cohérent avec l'hétéroscédasticité Erreur type Valeur du test t Pr > |t| Intercept 1 61.74333 12.12119 5.09 <.0001 10.99152 5.62 <.0001 age 1 -2.84933 0.60839 -4.68 <.0001 0.58795 -4.85 <.0001 taille2 1 -0.93136 2.38940 -0.39 0.6977 1.90087 -0.49 0.6255 nb_matchs 1 -0.00534 0.02540 -0.21 0.8341 0.02404 -0.22 0.8249 nb_buts 1 0.23689 0.04571 5.18 <.0001 0.08911 2.66 0.0095 nb_bcc 1 -5.63276 3.15915 -1.78 0.0784 3.33796 -1.69 0.0955 nb_cjau 1 0.29910 0.11770 2.54 0.0130 0.14682 2.04 0.0450 Les test Il s’agit pour nous de tester l’hypothèse d’égalité des coefficients des deux estimations, avec une marge d’erreur de 5% : π ππ βΆ π èππ πππππππππππ‘ ππ’ πππèππ π ; π = 1,2,3,4,5,6,7 ππ‘ π = 1,2,3 π» : π1 = π12 = π13 ; π12 = π22 = π23 ; π13 = π32 = π33 ; π14 = π42 = π43 ; π15 = π52 = π53 ; π16 = π62 = π63 ; π17 = π72 = π73 { 0 ′1 π»1 : π π’ππ πππ éπππππ‘éπ ππ − πππ π π’π π′ ππ π‘ πππ π£éππππéπ Soient SCR la somme des carrés des résidus estimés du modèle initial, SCR1 la somme des carrés des résidus estimés du premier groupe, SCR2 la somme des carrés des résidus estimés du groupe 2 et SCR3 la somme des carrés des résidus estimés du groupe 3. Les valeurs N1, N2, N3 représentent le nombre d'observations dans chaque groupe et k est le nombre total de paramètres à estimer (7 dans ce cas). Alors la statistique du test de Chow est égale à : πΉ= πΉ= (ππΆπ − (ππΆπ 1 + ππΆπ 2 + ππΆπ 3))/π (ππΆπ 1 + ππΆπ 2)/(π1 + π2 + π3 − 3π) (38710 − (7914 + 20341 + 8147))/7 2308/7 = = 3,22 (7914 + 20341 + 8147)/(118 + 173 + 86 − 3 ∗ 7) 36402/356 La statistique du test suit une loi de Fisher à V1 = k et V2 = N1 + N2 + N3 - 3k degrés de liberté : V1=7 et V2=356 πΉ(π1, π2) = πΉ(7,356) πΉ(7,356) < πΉ(7,300) D’après la table de la loi de Fisher : πΉ(7,300) = 2,04 < 3,22 Alors πΉ > πΉ(7,300) ⇒ πΉ > πΉ(7,356) [Attirez l’attention du lecteur avec 19 On rejette donc l’hypothèse H0 d’égalité des coefficients. La subdivision du modèle principal en trois sous-modèles est donc plus pertinente : nous retenons donc le modèle non contraint (composé des trois sous-modèles). Analyse et interprétation des résultats Dans un premier temps, nous pouvons voir via les statistiques de Fisher que ces 3 sous modèles sont globalement significatifs au seuil de 1% (tableaux 10-2, 11-2 et 12-2 en annexe). Nous allons à présent analyser l’impact de chaque caractéristique sur la valeur de transfert d’un joueur, compte tenu du poste qu’il occupe. Impact de chaque variable explicative sur la variable expliquée (Ceteris paribus) : Age : Nous pouvons voir que, quel que soit le sous échantillon dans lequel on se trouve, l’âge apparaît significatif au seuil de 1%. De fait, nous pouvons considérer que, quel que soit le poste qu’occupe le joueur, plus il est âgé, plus sa valeur de transfert sera relativement faible. Notons que l’impact de l’âge sur la valeur de transfert semble toutefois moindre lorsque le joueur est issu du premier sous-échantillon, constitué des gardiens, des latéraux et des défenseurs ; en effet, lorsqu’un joueur de cette catégorie vieillit d’un an, sa valeur de transfert diminue d’environ 1,83 millions d’euros, tandis que cette diminution est d’environ 2,40 millions d’euros pour les milieux de terrain, et d’à peu près 2,85 millions d’euros pour les ailiers et les attaquants. Cette corrélation négative entre l’âge et la valeur de transfert est intuitive ; de façon générale, les aptitudes physiques d’un joueur (et donc de fait ses performances) diminueront avec l’âge. Le fait que l’âge impacte davantage la valeur de transfert des attaquants et des ailiers se comprend assez bien, dans la mesure où ceux-ci doivent être capables, par exemple, d’être très rapide afin de traverser la défense adverse. Concernant les milieux de terrains, ceux-ci doivent être capable de dynamiser le jeu, d’être endurant et d’offrir des opportunités aux ailiers et aux attaquants. Quant aux défenseurs, aux latéraux et aux gardiens, bien que leur rôle soit primordial, ceux-ci sont à priori moins amenés à être poussés dans leurs derniers retranchements en termes d’endurance et de rapidité : le faible impact de l’âge (relativement aux autres joueurs) sur leur valeur de transfert se comprend donc aisément. D’ailleurs, le joueur le plus âgé de notre base fait partie de cette catégorie : c’est un gardien âgé de 34 ans et transféré à 5 millions d’euros. [Attirez l’attention du lecteur avec 20 Taille : Nous pouvons voir que la taille apparaît significative au seuil de 5% pour le sous échantillon composé des gardiens, des latéraux et des défenseurs ainsi que pour le sous-échantillon composé des milieux de terrains. Entre autres, le fait qu’un joueur mesure moins ou plus que la taille moyenne des joueurs (1m82, au sein de tout l’échantillon), influence sa valeur de transfert. Notons que l’impact de la taille sur la valeur de transfert semble toutefois plus important lorsque le joueur est milieu de terrain ; en effet, lorsqu’un milieu de terrain fait 1cm de plus, sa valeur de transfert augmente d’environ 48.600 €, contre 31.600 € pour la catégorie des gardiens/latéraux/défenseurs. Le fait que la taille impacte davantage la valeur de transfert des milieux de terrain se comprend assez bien, dans la mesure où ceux-ci doivent être en mesure de récupérer efficacement la balle et d’organiser le jeu central , afin de construire des actions favorables à leur équipe : on s’attend donc à ce que les clubs recruteurs y accordent une grande importance. Concernant la catégorie des gardiens/latéraux/défenseurs, leur taille est un atout majeur pour défendre les cages des attaques adverses ; par exemple lors d’un corner, un gardien élancé pourra surpasser toute l’équipe adverse en attrapant le ballon dans les airs. Toujours lors d’un corner, un défenseur grand de taille sera davantage apte à gagner des duels face à des attaquants déterminés. Notons que la variable taille n’est pas significative pour la catégorie des ailiers/attaquants ; la taille d’un ailier ou d’un attaquant n’aurait à priori pas d’impact sur sa valeur de transfert. Nb_matchs : Nous pouvons voir que le nombre de matchs disputés par un joueur au cours de sa carrière paraît significatif au seuil de 1% pour la catégorie gardien/latéral/défenseur ainsi que pour la catégorie des milieux de terrains. Ainsi, plus un joueur ,issu de l’une de ces catégories, a disputé de matchs au cours de sa carrière, plus sa valeur de transfert est importante, toutes choses étant égales par ailleurs (Ceteris paribus). Notons que l’impact de cette variable sur la valeur de transfert semble toutefois légèrement plus important lorsque le joueur est un milieu de terrain ; en effet, lorsqu’un milieu de terrain dispute un match supplémentaire, cela engendre une hausse de sa valeur de transfert d’environ 66 000 €, contre 59 000 € environ pour la catégorie gardien/latéral/défenseur). Ce résultat respecte notre intuition initiale, dans la mesure où un joueur ayant disputé un grand nombre de matchs est à priori plus expérimenté qu’un joueur n’ayant pas eu cette opportunité, et de fait plus à même de contribuer à l’essor de son équipe. Néanmoins, les clubs recruteurs ne semblent pas être trop intéressés par l’expérience des attaquants (en termes de nombre de matchs joués), mais probablement plus par ses performances. En effet, la variable nb_matchs apparaît non significative pour ce type de joueurs : le fait qu’un attaquant ou un ailier ait disputé un certain nombre de matchs au cours de sa carrière n’aurait à priori aucun impact sur sa valeur de transfert. [Attirez l’attention du lecteur avec 21 Nb_buts : Nous pouvons voir que le nombre de buts marqués par un joueur au cours de sa carrière paraît significatif au seuil de 1% pour la catégorie attaquant/ailier, et au seuil de 10% pour les milieux de terrain. Ainsi, plus un joueur issu de l’une de ces 2 catégories a marqué de buts au cours de sa carrière, plus sa valeur de transfert est élevée. L’impact de cette variable sur la valeur de transfert est bien plus important lorsque le joueur appartient à la catégorie attaquant/ailier ; en effet, lorsqu’un attaquant (ou un ailier) marque un but supplémentaire, cela engendre une hausse de sa valeur de transfert d’environ 237 000€, contre seulement 76 000€ environ pour les milieux de terrain. Cela se comprend aisément puisque ce qu’on attend premièrement d’un attaquant est qu’il marque des buts ; ce qu’on n’attend pas nécessairement d’un milieu de terrain. Ce résultat est d’autant plus intéressant lorsqu’on le compare avec le résultat obtenu précédemment (pour la variable nb_matchs) : ce n’est pas le nombre de matchs joués qui fait la valeur d’un joueur, c’est le nombre de but marqués. Là est leur ultime objectif, la clé de la victoire de l’équipe. En revanche, la variable nb_buts apparaît non significative pour la catégorie gardien/latéral/défenseur ; le fait qu’un joueur issu de cette catégorie ait marqué ou non beaucoup de buts au cours de sa carrière n’a à priori aucun impact sur sa valeur de transfert. Ce résultat paraît assez logique puisque la mission première des défenseurs est de défendre l’équipe contre toutes attaques du camp adverse. Le nombre de buts marqués n’est donc pas pour eux un critère de performance, et par conséquent ne saurait influer sur leurs valeurs de transfert. Nb_bcc : Nous pouvons voir que le nombre de buts marqués contre son camp par un joueur au cours de sa carrière paraît significatif au seuil de 10% pour la catégorie attaquant/ailier. Ainsi, lorsqu’un attaquant/ailier marque un but contre son camp, celui-ci voit sa valeur de transfert chuter d’environ 5.63 millions d’euros. En revanche, le nombre de buts marqués contre son camp par un joueur issu des autres catégories n’est pas significatif ; entre autres, le fait qu’un gardien/latéral/défenseur ou qu’un milieu de terrain marque un but contre son camp n’aurait à priori aucun impact sur sa valeur de transfert. Ces résultats se comprennent assez aisément dans la mesure où le rôle d’un attaquant est de marquer des buts dans les cages adverses, et non dans les cages de son équipe. Cet erreur de la part d’un attaquant pourrait notamment signifier que celui-ci n’est pas là où il devrait se trouver et donc ne joue pas le rôle qui lui est dédié. De plus, le fait que cette erreur n’influence pas la valeur de transfert des joueurs des autres catégories témoigne de la tolérance des équipes vis-à-vis des rares accidents qui pourraient subvenir dans l’exécution de leurs (ces joueurs) tâches. Après tout, l’erreur est humaine ! [Attirez l’attention du lecteur avec 22 Nb_cjau : Nous pouvons voir que le nombre de cartons jaunes obtenus par un joueur au cours de sa carrière paraît significatif au seuil de 5 % pour la catégorie attaquant/ailier. Ainsi, lorsqu’un joueur de cette catégorie est sanctionné d’un carton jaune supplémentaire, sa valeur de transfert augmente d’environ 299 000 €. Cela pourrait paraître très étonnant, mais le graphe ci-dessous expliquera notre raisonnement : Graphique 7 : nb_cjau*nb_buts (uniquement pour le sous échantillon ailiers/attaquants) 250 nb_buts 200 150 100 50 0 0 20 40 60 80 nb_cjau nb_buts Régression Nous remarquons aisément que le nombre de cartons jaunes reçus et le nombre de buts marqués sont positivement corrélés. C’est-à-dire que plus un ailier/attaquant prend de cartons jaunes, plus il marque de buts ou vice-versa. En d’autres termes, plus un ailier/attaquant est agressif, plus il marque de buts (ou vice-versa). Les Clubs considèrent donc l’agressivité des attaquants comme étant bénéfique pour le club et donc valorisent cela. En revanche, cette variable apparaît non significative pour les autres catégories de joueur : le nombre de cartons jaunes obtenus par un joueur de ces catégories (gardien, latéral, défenseur, milieu de terrain) n’impacterait pas leurs valeurs de transfert. Ces résultats peuvent se comprendre dans la mesure où l’agressivité des joueurs plus proches des cages a un impact mitigé sur la performance du club : certaines actions agressives permettent d’estomper les attaques adverses, mais d’autres mettent en péril la défense (par exemple une faute commise dans la surface de réparation engendrant un penalty) . Cet impact mitigé de l’agressivité sur la performance des clubs entraine donc un impact mitigé sur les valeurs de transfert des joueurs. Synthèse des impacts des variables explicatives sur la variable expliquée Après analyse, nous pouvons considérer que l’âge représente un facteur non négligeable dans l’élaboration de la valeur de transfert d’un joueur de football, et ce quel que soit le poste qu’il [Attirez l’attention du lecteur avec 23 est disposé à occuper. Le fait qu’un joueur soit relativement jeune fait à priori gage de bonne performance, de disponibilité sur le moyen/long terme au sein du club intéressé, ou même d’une probable revente rentable, dans l’avenir, par le club. De plus, la taille d’un joueur ainsi que le nombre de matchs qu’il a disputé au cours de sa carrière influencent positivement sa valeur de transfert (excepté pour les attaquants et les ailiers où leur taille et expérience importe peu). Cela dit, ces impacts respectifs restent moins importants que celui de l’âge. Concernant le nombre de buts marqués par un joueur au cours de sa carrière, cela semble être un facteur très apprécié quant à la sélection d’un bon attaquant ou ailier, cette appréciation engendrant de fait une hausse considérable de la valeur du joueur concerné. Concernant les milieux de terrain, même si cela n’est pas leur objectif premier, le nombre de buts marqués détermine quand même leurs valeurs de transfert. Le nombre de buts marqués contre son camp ainsi que le nombre de cartons jaunes obtenus au cours d’une carrière n’ont d’impact que sur la valeur de transfert des attaquants et des ailiers : un ailier/attaquant doit tout simplement être agressif et marquer dans le bon camp. Les résultats de nos estimations permettent de révéler les préférences des clubs en termes de caractéristiques recherchées chez un joueur en fonction du poste occupé : Ailiers et Attaquants •Jeune •Buteur •Ne marquant pas contre son propre camp •Agressif Milieux de terrainn •Jeune •Grand de taille •Expérimenté •Buteur •Agressif ou non Gardiens, Défenseurs, latéraux •Jeune •Grand de taille •Expérimenté •Agressif ou non [Attirez l’attention du lecteur avec 24 Un joueur occupant un poste adapté aux attentes des clubs recruteurs sera davantage valorisé : il faut que le bon joueur soit au bon poste. Le bon joueur au bon poste De nos analyses, il ressort que les clubs ont une préférence pour les joueurs ayant les caractéristiques requises pour les postes qu’ils occupent. Les joueurs répondant aux attentes des clubs en termes de caractéristiques sont donc en général mieux valorisés. Notre objectif sera désormais de prédire le poste auquel un joueur devrait jouer pour être au mieux valorisé, en fonction de ses caractéristiques : âge, taille, nombre de matchs joués, nombre de buts marqués, nombre de buts marqués contre son camp, nombre de cartons jaunes obtenus. Nous procéderons à une classification à l’aide de la méthode des k plus proches voisins. Nous choisirons π = √377 ≅ 19 [Attirez l’attention du lecteur avec 25 Résultats de la classification par la méthode des k plus proches voisins : Tableau 13-5 Number of Observations and Percent Classified into poste2 De poste2 0 1 2 Total 0 84 71.19 34 28.81 0 0.00 118 100.00 1 26 15.03 121 69.94 26 15.03 173 100.00 2 5 5.81 11 12.79 70 81.40 86 100.00 115 30.50 166 44.03 96 25.46 377 100.00 0.3333 3 0.3333 3 0.3333 3 0 π π πππππππ, πéππππ ππ’π, πππ‘éπππ Poste2 ={1 π π ππππππ’ ππ π‘ππππππ 2 π π ππππππ ππ’ ππ‘π‘πππ’πππ‘ Tableau 13-6 Total Priors Error Count Estimates for poste2 0 1 2 Total Rate 0.288 1 0.300 6 0.186 0 0.258 3 Priors 0.333 3 0.333 3 0.333 3 On remarque à l’aide du tableau 13-5 que le taux de bons classements est de 71% pour le groupe 1 (gardiens/défenseurs/latéraux), 70% pour le groupe 2 (milieux) et 81% pour le groupe 3 (ailiers/attaquants). Il existe donc des mal classés, c’est-à-dire des joueurs classés par notre méthode dans une catégorie autre que celle à laquelle ils appartiennent réellement. En d’autres termes, l’algorithme des k plus proches voisins juge que ces joueurs correspondent plus à une autre catégorie au vu de leurs caractéristiques : et donc seraient plus valorisés lors d’un transfert s’ils jouaient à l’un des postes du groupe proposé par l’algorithme. Exemple de deux joueurs mal classés (voir tableau 13-4 en annexe) 1- Observation 16 (de la base triée par valeurs croissantes et par âge croissant) : milieu de terrain, mais classé dans le groupe des ailiers/attaquants Voici ces caractéristiques : Age : 26 ; taille : 1,83m ; nb_matchs=167 ; nb_buts=83 ; nb_bcc=0; nb_cjau=35 jeune un peu expérimenté [Attirez l’attention du lecteur avec 0 but contre son camp un peu aggressif 26 Valeur de transfert = 500.000 euros Ce joueur correspond plus à un ailier/attaquant plutôt qu’à un milieu de terrain, et donc pourrait avoir une valeur de transfert plus grande en jouant principalement en tant ailier ou attaquant. 2- Observation 360 : milieu de terrain, mais classé comme défenseur/latéral : Age : 26 ; taille : 1,86m ; nb_matchs=333 ; nb_buts=25 ; nb_bcc=2; nb_cjau=74 2 buts contre son camp jeune aggressif Valeur de transfert = 33,6 millions d’euros Ce joueur correspond plus à un défenseur/latéral plutôt qu’à un milieu de terrain, et donc pourrait avoir une valeur de transfert plus grande en jouant principalement en tant que défenseur ou latéral. Exemple de deux joueurs bien classés 1- Observation 360 : milieu de terrain Age : 23 ; taille : 1,88m ; nb_matchs=250 ; nb_buts=47 ; nb_bcc=0; nb_cjau=38 très peu jeune aggressif On voit facilement que ces caractéristiques correspondent plus à un milieu de terrain. On comprend aisément pourquoi c’est le joueur le plus cher de notre base : valeur de transfert : 110 millions d’euros. Il serait sans doute moins valorisé s’il jouait à un autre poste : c’est le bon joueur au bon poste. [Attirez l’attention du lecteur avec 27 2- Observation 360 : défenseur Age : 32 ; taille : 1,87m ; nb_matchs=432 ; nb_buts=23 ; nb_bcc=2; nb_cjau=80 très peu de buts 2 buts contre son camp un peu aggressif Ces caractéristiques démontrent clairement qu’il s’agit d’un défenseur. Son transfert est de 2,5 millions d’euros : il serait sans doute moins valorisé en tant que milieu de terrain, ailier ou attaquant. Conclusion A l’aide de la méthode des prix hédoniques, nous avons pu estimer la valeur des joueurs transférés au cours du Mercato estival 2016 à l’aide de leurs caractéristiques (âge, taille, etc..). Nous avons ensuite procédé à une analyse discriminante pour identifier les caractéristiques vraiment valorisées en fonction du poste occupé par le joueur. Nous sommes arrivés à certaines conclusions très intéressantes : -Le poste qu’occupe un joueur est déterminant dans sa valeur de transfert ; les attaquants et les milieux de terrains sont notamment les stars du mercato. -L’âge d’un joueur est également crucial dans la constitution de sa valeur de transfert ; rares sont les transferts de joueurs de plus de 32 ans. -La taille d’un joueur ainsi que son expérience en termes de matchs joués influence sa valeur de transfert, les attaquants et les ailiers ne sont toutefois pas véritablement concernés. [Attirez l’attention du lecteur avec 28 Cependant, ces derniers ainsi que les milieux ont tout intérêt à marquer beaucoup de buts, dans l’optique d’accroître leur valeur de transfert. Nous avons également découvert que les attaquants et ailiers les plus performants sont les plus agressifs. L’agressivité des ailiers/attaquants est donc bien rémunérée à juste titre. Les ailiers et attaquants marquant contre leur propre camp sont très pénalisés sur le marché des transferts : une diminution de plus de 5 millions d’euros par but non désiré sur la valeur de transfert, il y a de quoi se méfier… Nous n’avons certainement pas trouvé de réponse à toutes les interrogations que suggère ce thème aussi intéressant et clairement d’actualité. L’une des nombreuses questions que nousnous posons encore est celle-ci : « Quels sont les déterminants, au sein d’un club, du nombre de buts marqués par match ? ». C’est une question très intéressante mais dont la réponse va clairement au-delà du cadre de notre présente étude. Références bibliographiques 1- Yuan He (2013) “Predicting Market Value of Soccer Players Using Linear Modeling Techniques” 2- Miao He, Ricardo Cachucho, and Arno Knobbe (2015), “Football Player's Performance and Market Value” 3- www.footballdatabase.eu 4- www.wikipedia.org 5- www.football-observatory.com 6- www.transfermarkt.fr 7- Documentation de SAS [Attirez l’attention du lecteur avec 29 Annexe Codes Python : Extraction des fichiers concernant chaque joueur transféré (pour les 5 championnats) #-*-coding:utf-8-*import urllib as ur import os pays="France" # à faire pays par pays fichier=open("{}.txt".format(pays),"r") #fichier contient les lignes de italie.txt fiche=list(fichier) #je transforme fichier en une liste liens=[] #pour collecter les liens qui nous interesse #cette première boucle me permet de générer la liste de liens des joueurs for ligne in fiche: while True: if not "football.joueurs" in ligne: break posi1=ligne.find("football.joueurs") #renvoie la position de la première lettre dans la ligne : f posi2=ligne[posi1:].find("'>")+posi1 # +posi1 [Attirez l’attention du lecteur avec 30 chaine=ligne[posi1:posi2] ligne=ligne[posi2:] #ligne contenant les autres liens, il faut que j'élimine celui qu'on vient de traiter liens.append(chaine) # je stocke le contenu de la chaine dans liens (liste créée plus haut os.chdir('..\Scripts\{}'.format(pays)) for lien in liens: page=ur.urlopen("http://www.footballdatabase.eu/{}".format(lien)) contenu=page.read() #le code source de la page nom=lien.split(".") nom=nom[2]+" "+nom[3] print(nom) file=open("{}.txt".format(nom),"w") #création de fichier portant le nom du joueur file.write("{}".format(contenu)) # je mets le contenu de "contenu" dans le fichier créé pour le sauvegarder file.close() fichier.close() Tri et constitution de la base de données à l’aides des fichiers de chaque joueur #-*-coding:utf-8-*import csv import os pays=["Europe"] """Le dossier europe regroupe tous les fichiers concernant les transferts au sein du top5 "Allemagne","Angleterre","Espagne","France","Italie"]""" file=open("Base.csv","w") writer=csv.writer(file) writer.writerow(("val","age","poste","taille","poids","nb_matchs","nb_titu","nb_min","nb_buts","nb _bcc","nb_cjau","nb_crou","nb_selections",)) problem=[] for nation in pays: os.chdir("../Final/{}".format(nation)) #je change de répertoire courant pour me mettre dans celui d'un des pays liste=os.listdir() #je crée une liste contituée de tous les fichiers dans nation for joueur in liste: fichier=open("{}".format(joueur),"r") #ouvrir le fichier correspondant au nom du joueur en mode lecture fiche=list(fichier) # on transforme fichier en une liste qu'on surnomme fiche [Attirez l’attention du lecteur avec 31 poids=0 taille=0 select=0 row=[] i=-1 for ligne in fiche: i+=1 #récupérer l'âge if "<b>Age</b> " in ligne: try: posi1=ligne.find("<b>Age</b> ")+len("<b>Age</b> ") posi2=ligne.find(" ans") age=int(ligne[posi1:posi2]) row.append(age) print("age :",age) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #récupérer le poste if "<b>Poste</b> " in ligne: try: posi1=ligne.find("<b>Poste</b> ")+len("<b>Poste</b> ") posi2=ligne.find("</td></tr>") poste=ligne[posi1:posi2] row.append(poste) print("poste :",poste) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #récupérer la taille if "<b>Taille</b>" in ligne: try: posi1=ligne.find("<b>Taille</b> ")+len("<b>Taille</b> ") posi2=ligne.find("&nbsp;&nbsp;<b>") if posi2==-1: posi2=ligne.find("&nbsp;&nbsp;</td></tr>") [Attirez l’attention du lecteur avec 32 chaine=ligne[posi1:posi2] #on récupère quelque chose sous format 1m73 liste=chaine.split("m") taille=float(liste[0]+"."+liste[1]) row.append(taille) print("taille :",taille) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) elif len(fiche)==i+1 and taille==0 : # si on se trouve à la dernière ligne et que la taille n'a pas été trouvée taille=1.8 #on affecte au joueur la taille moyenne des joueurs row.append(taille) print("taille :",taille) #récupérer le poids if "<b>Poids</b> " in ligne: try: posi1=ligne.find("<b>Poids</b> ")+len("<b>Poids</b> ") posi2=ligne.find(" kg&nbsp") poids=int(ligne[posi1:posi2]) row.append(poids) print("poids :",poids) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) elif len(fiche)==i+1 and poids==0 : # si on se trouve à la dernière ligne et que le poids n'a pas été trouvée poids=75 #on affecte au joueur la taille moyenne des joueurs row.append(poids) print("poids :",poids) if '<div id="taboola-below-article-thumbnails"></div>' in ligne: comp,nc=0,1 while comp!=2: if "</table>" in fiche[i-nc]: comp=comp+1 nc+=1 liste=fiche[i-nc].split('onClick') #Nombre de matchs disputés [Attirez l’attention du lecteur avec 33 try: posi1=liste[-7].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-7].find("</a></td>") nb_matchs=int(liste[-7][posi1:posi2]) row.append(nb_matchs) print("Nb de matchs: ",nb_matchs) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Nombre de titularisations try: posi1=liste[-6].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-6].find("</a></td>") nb_titu=int(liste[-6][posi1:posi2]) row.append(nb_titu) print("Nb de titularisations: ",nb_titu) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Nombre de minutes jouées try: posi1=liste[-5].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-5].find("</a></td>") nb_min=int(liste[-5][posi1:posi2]) row.append(nb_min) print("Nb de minutes jouées: ",nb_min) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Nombre de buts try: posi1=liste[-4].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-4].find("</a></td>") nb_buts=int(liste[-4][posi1:posi2]) row.append(nb_buts) print("Nb de buts: ",nb_buts) except: [Attirez l’attention du lecteur avec 34 print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Nombre de buts contre son camp try: posi1=liste[-3].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-3].find("</a></td>") nb_bcc=int(liste[-3][posi1:posi2]) row.append(nb_bcc) print("Nb de buts contre camp: ",nb_bcc) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Nombre de cartons jaunes try: posi1=liste[-2].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-2].find("</a></td>") nb_cj=int(liste[-2][posi1:posi2]) row.append(nb_cj) print("Nb de cartons jaunes: ",nb_cj) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Nombre de cartons rouges try: posi1=liste[-1].find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=liste[-1].find("</a></td>") nb_cr=int(liste[-1][posi1:posi2]) row.append(nb_cr) print("Nb de cartons rouges: ",nb_cr) except: print("Probleme!!!") if joueur not in problem: problem.append(joueur) #Valeur du joueur if '<tr><td class="tableaubleuclair"><img src=\'images/def/sestransfertsbleu_fr-250.gif\' border=\'0\'></td>' in ligne: posi1=fiche[i+10].find("<nobr>")+len("<nobr>") [Attirez l’attention du lecteur avec 35 posi2=fiche[i+10].find("</nobr>") chaine=fiche[i+10][posi1:posi2] liste=chaine.split(" ") if len(liste)==2: if liste[1]=="M€": val=float(liste[0]) elif liste[1]=="k€": val=float(liste[0])/1000 else: val=0 row.append(val) print("Valeur marchande :",val) #récupérer le nombre de sélections if "<b>Sélections</b> " in ligne: posi1=ligne.find("scrollbars=1')")+len("scrollbars=1')")+2 posi2=ligne.find("</a>") select=int(ligne[posi1:posi2]) row.append(select) print("Nb de selections :",select) if select==0: row.append(select) print("Nb de selections :",select) row=[val,age,poste,taille,poids,nb_matchs,nb_titu,nb_min,nb_buts,nb_bcc,nb_cj,nb_cr,select] # ce qu'il fallait faire if joueur not in problem: writer.writerow(row) fichier.close() print("Joueur :",joueur) print("Problemes survenus :",problem) file.close() Codes SAS : Tableau 4 : effectifs et fréquences au sein des modalités de la variable poste proc tabulate data=base; class poste; [Attirez l’attention du lecteur avec 36 table (n pctn),poste; run; Graphique 1 : poste*val proc sort data=base; by val poste; run; proc sgplot data=base; scatter x=poste y=val ; run; Graphique 2 : poste * Val ( répartition de la richesse totale par poste ) proc template ; define statgraph WebOne.Pie; begingraph; layout region; piechart category=poste response=val / dataskin=Gloss start=90 centerFirstSlice=1; endlayout; endgraph; end; run; ods graphics / reset imagemap; proc sgrender template=WebOne.Pie data=base; run; Graphique 3 : poste * Val_cor proc template ; define statgraph WebOne.Pie; begingraph; layout region; piechart category=poste response=val_cor / dataskin=Gloss start=90 centerFirstSlice=1; endlayout; endgraph; end; run; ods graphics / reset imagemap; proc sgrender template=WebOne.Pie data=base; run; [Attirez l’attention du lecteur avec 37 Tableau 5 : statistiques de base des variables quantitatives proc means data=base; var val age taille poids nb_matchs nb_titu nb_min nb_buts nb_bcc nb_cjau nb_crou nb_select; run; Graphique 4 : age*val proc sgplot data=base; scatter x=age y=val; run; Tableau 6 : statistiques de base de nb_buts dans le sous-échantillon attaquants proc means data=base; var nb_buts; run; Graphique 5 : nb_buts*val proc sgplot data=base; reg x=nb_buts y=val; scatter x=nb_buts y=val; run; Tableau 7 : statistiques de base de nb_ bcc dans le sous-échantillon défenseurs proc means data=base; var nb_bcc; run; Graphique 6 : nb_bcc*val proc sgplot data=base; scatter x=nb_bcc y=val; run; [Attirez l’attention du lecteur avec 38 Tableau 8 : statistiques de base de nb_cjau dans le sous-échantillon défenseurs proc means data=base; var nb_cjau; run; Estimation du modèle général proc reg data=base; model val= age taille2 nb_matchs nb_buts nb_bcc nb_cjau/ white; run; Premier échantillon : data base1; set base; if poste=0 or poste=1 or poste=3; run; Deuxième échantillon : data base2; set base; if poste=2; run; Troisième échantillon data base3; set base; if poste=4 or poste=5; run; Estimations des trois sous-modèles : %macro regr(base); proc reg data=&base; model val= age taille2 nb_matchs nb_buts nb_bcc nb_cjau/ white; run; %mend; %regr(base1); %regr(base2); %regr(base3); Graphique 7 : nb_cjau*nb_buts (uniquement pour le sous échantillon ailiers/attaquants) proc sgplot data=base1; scatter x=nb_cjau y=nb_buts; reg x=nb_cjau y=nb_buts; [Attirez l’attention du lecteur avec 39 run; Classification par la méthode des k plus proches voisins %let k=19; proc discrim data=base test=base testout=basetest method=NPAR k=&k listerr crosslisterr; class poste2; var age taille nb_matchs nb_buts nb_bcc nb_cjau; title ' Classification KNN sur Base Data'; run; Tableaux Estimation du modèle général Tableau 9-1 : Nombre d’observations Nb d'observations lues 377 Nb d'obs. utilisées 377 Tableau 9-2 : Analyse de la variance Analyse de variance Source DDL Somme des carrés Moyenne quadratique Valeur F Pr > F Modèle 6 14676 2446.02419 23.38 <.0001 Erreur 370 38710 104.62101 Total sommes corrigées 376 53386 Tableau 9-3 : Analyse de la variance Root MSE 10.22844 R carré 0.2749 Moyenne dépendante 8.76757 R car. ajust. 0.2631 Coeff Var 116.66217 [Attirez l’attention du lecteur avec 40 Premier échantillon : Tableau 10-1 : Nombre d’observations Nb d'observations lues 118 Nb d'obs. utilisées 118 Tableau 10-2 : Analyse de la variance Analyse de variance Source DDL Somme des carrés Moyenne quadratique Valeur F Pr > F Modèle 6 2154.75972 359.12662 5.04 0.0001 Erreur 111 7914.39621 71.30087 Total sommes corrigées 117 10069 Tableau 10-3 : Analyse de la variance Root MSE Moyenne dépendante Coeff Var 8.44398 R carré 0.2140 6.68729 R car. ajust. 0.1715 126.26918 Deuxième échantillon : Tableau 11-1 : Nombre d’observations Nb d'observations lues 173 Nb d'obs. utilisées 173 [Attirez l’attention du lecteur avec 41 Tableau 11-2 : Analyse de la variance Analyse de variance Source DDL Somme des carrés Moyenne quadratique Valeur F Pr > F Modèle 6 6240.36305 1040.06051 8.49 <.0001 Erreur 166 20341 122.53415 Total sommes corrigées 172 26581 Tableau 11-3 : Analyse de la variance Root MSE 11.06951 R carré 0.2348 Moyenne dépendante 8.95910 R car. ajust. 0.2071 Coeff Var 123.55604 Troisième échantillon Tableau 12-1 Nb d'observations lues 86 Nb d'obs. utilisées 86 Tableau 12-2 Analyse de variance Source DDL Somme des carrés Moyenne quadratique Valeur F Pr > F Modèle 6 7547.23393 1257.87232 12.20 <.0001 Erreur 79 8147.21820 103.12934 Total sommes corrigées 85 15694 Tableau 12-3 Root MSE 10.15526 R carré 0.4809 Moyenne dépendante 11.23663 R car. ajust. 0.4415 Coeff Var 90.37642 [Attirez l’attention du lecteur avec 42 Classification par la méthode des k plus proches voisins Tableau 13-1 Total Sample Size 377 DF Total 376 Variables 6 DF Within Classes 374 Classes 3 DF Between Classes 2 Tableau 13-2 Number of Observations Read 377 Number of Observations Used 377 Tableau 13-3 Class Level Information poste2 Nom de la variable Fréquence Pondération Proportion Probabilité a priori 0 _0 118 118.0000 0.312997 0.333333 1 _1 173 173.0000 0.458886 0.333333 2 _2 86 86.0000 0.228117 0.333333 Tableau 13-4 [Attirez l’attention du lecteur avec 43 Probabilité a posteriori d'un membre de poste2 Obs De poste2 Classé dans poste2 0 1 2 4 2 1 * 0.3139 0.5138 0.1723 5 2 1 * 0.0624 0.5954 0.3422 6 0 1 * 0.4610 0.5390 0.0000 10 2 0 * 0.4057 0.3558 0.2386 11 0 1 * 0.3857 0.5261 0.0882 13 1 2 * 0.1085 0.3702 0.5213 15 1 2 * 0.1544 0.2808 0.5648 16 1 2 * 0.0000 0.0853 0.9147 17 1 0 * 0.4057 0.3558 0.2386 22 1 0 * 0.4940 0.4212 0.0847 24 0 1 * 0.3693 0.4618 0.1689 25 1 0 * 0.6196 0.3804 0.0000 35 0 1 * 0.2889 0.3941 0.3171 40 1 2 * 0.2675 0.2920 0.4405 42 0 1 * 0.3139 0.5138 0.1723 48 1 0 * 0.4226 0.4118 0.1657 54 0 1 * 0.1962 0.6244 0.1794 55 0 1 * 0.3693 0.4618 0.1689 57 2 0 * 0.5724 0.1420 0.2856 58 2 1 * 0.1728 0.4321 0.3951 60 0 1 * 0.3139 0.5138 0.1723 69 2 0 * 0.4844 0.2203 0.2954 73 1 2 * 0.0860 0.0880 0.8260 79 1 0 * 0.9257 0.0743 0.0000 81 2 0 * 0.6610 0.1879 0.1512 83 1 2 * 0.0000 0.0553 0.9447 98 0 1 * 0.3281 0.5819 0.0900 99 2 0 * 0.3901 0.3041 0.3058 101 1 0 * 0.5492 0.2248 0.2261 102 1 0 * 0.4940 0.4212 0.0847 105 0 1 * 0.3693 0.4618 0.1689 114 2 1 * 0.0000 0.6509 0.3491 116 1 2 * 0.0000 0.0853 0.9147 122 0 1 * 0.3404 0.3483 0.3114 123 1 0 * 0.6167 0.2294 0.1539 125 2 1 * 0.0000 0.5819 0.4181 129 0 1 * 0.2562 0.5680 0.1758 137 0 1 * 0.3009 0.4515 0.2477 140 0 1 * 0.4610 0.5390 0.0000 [Attirez l’attention du lecteur avec 44 141 1 0 * 0.4739 0.3636 0.1625 220 1 2 * 0.0000 0.3558 0.6442 143 1 0 * 0.7735 0.1507 0.0758 221 1 2 * 0.1085 0.3702 0.5213 148 1 0 * 0.5160 0.4840 0.0000 226 1 2 * 0.0000 0.3091 0.6909 149 1 0 * 0.5689 0.4311 0.0000 234 0 1 * 0.1336 0.6832 0.1832 150 0 1 * 0.4409 0.4726 0.0864 237 1 0 * 0.5232 0.3172 0.1595 163 0 1 * 0.2681 0.6400 0.0920 238 1 2 * 0.0552 0.4144 0.5304 166 2 1 * 0.0000 0.5186 0.4814 239 0 1 * 0.3139 0.5138 0.1723 170 1 0 * 0.6684 0.3316 0.0000 242 1 0 * 0.4552 0.3105 0.2342 171 1 2 * 0.0000 0.4601 0.5399 244 1 0 * 0.8866 0.1134 0.0000 180 1 2 * 0.0000 0.4060 0.5940 250 0 1 * 0.3543 0.4027 0.2430 182 1 0 * 0.4739 0.3636 0.1625 256 1 2 * 0.0552 0.4144 0.5304 186 1 0 * 0.5689 0.4311 0.0000 257 0 1 * 0.3857 0.5261 0.0882 187 0 1 * 0.4610 0.5390 0.0000 276 2 1 * 0.0598 0.5301 0.4101 193 1 0 * 0.5942 0.3242 0.0815 279 0 1 * 0.1336 0.6832 0.1832 194 1 0 * 0.7735 0.1507 0.0758 282 2 1 * 0.1877 0.5548 0.2575 197 0 1 * 0.4610 0.5390 0.0000 284 0 1 * 0.3281 0.5819 0.0900 198 1 2 * 0.1128 0.4230 0.4642 288 0 1 * 0.3139 0.5138 0.1723 200 0 1 * 0.4409 0.4726 0.0864 289 1 2 * 0.0000 0.4060 0.5940 215 0 1 * 0.3437 0.6563 0.0000 290 1 2 * 0.0000 0.4060 0.5940 218 1 2 * 0.1128 0.4230 0.4642 292 1 0 * 0.4739 0.3636 0.1625 219 1 0 * 0.5232 0.3172 0.1595 293 1 0 * 0.5708 0.2725 0.1566 [Attirez l’attention du lecteur avec 45 295 1 2 * 0.0000 0.1170 0.8830 296 2 1 * 0.0624 0.5954 0.3422 297 1 0 * 0.5942 0.3242 0.0815 301 2 1 * 0.3693 0.4618 0.1689 307 1 0 * 0.3901 0.3041 0.3058 309 1 2 * 0.0552 0.4144 0.5304 311 0 1 * 0.3437 0.6563 0.0000 314 0 1 * 0.3437 0.6563 0.0000 317 1 2 * 0.0000 0.3091 0.6909 319 2 1 * 0.0652 0.6666 0.2682 323 0 1 * 0.3857 0.5261 0.0882 329 0 1 * 0.4610 0.5390 0.0000 335 0 1 * 0.4409 0.4726 0.0864 340 0 1 * 0.4409 0.4726 0.0864 341 1 2 * 0.0000 0.2248 0.7752 342 0 1 * 0.4610 0.5390 0.0000 346 1 2 * 0.0000 0.2655 0.7345 353 1 2 * 0.0000 0.3558 0.6442 360 1 0 * 0.7154 0.2846 0.0000 372 1 2 * 0.0000 0.1866 0.8134 374 1 2 * 0.1046 0.3211 0.5742 [Attirez l’attention du lecteur avec Table de Fisher [Attirez l’attention du lecteur avec une citation du document ou utilisez