Le système Elo


Dans ce blog, nous faisons un usage régulier d'un système d'évaluation basé sur les niveaux Elo des joueurs
Cela mérite une explication.


Qu'est-ce que le système Elo original ?


Le système d'évaluation Elo a été mis au point pour évaluer la force des joueurs d'échecs. Il tire son nom du physicien et joueur d'échecs Arpad Elo qui l'a modélisé.

Le principe est simple : on attribue un niveau Elo en fonction de la force des joueurs, en étudiant leurs performances passées.
La différence de niveau entre les 2 joueurs donne une probabilité sur l'issue de leur confrontation. 2 joueurs de force Elo identique ont chacun 50 % de chances de victoire. Au plus la différence de niveau est grande, au plus le joueur le plus fort a une forte probabilité de l'emporter.

Après chaque confrontation, on remet à jour le niveau des joueurs ; si le vainqueur a réalisé une performance meilleure qu'attendue par le modèle mathématique, il gagne des points Elo. Son adversaire se voit retirer le même nombre de points.

Pour plus de détails, vous pouvez consulter l'article sur Wikipedia.
Comme souvent, la version anglaise est plus complète ; si vous lisez l'anglais, vous la trouverez ici.

Quelles sont les règles du calcul du niveau Elo ?


Je ne vais pas vous assommer ici avec des formules mathématiques, des lois normales, des tables de probabilité, etc …

Les matheux pourront trouver des détails sur les articles de Wikipedia précités.

Peut-il être utilisé pour le tennis ?


Oui, bien sûr. Un des génies du Professeur Elo est d'avoir conçu un système pouvant être utilisé pour tous les événements confrontant 2 personnes.

Je fais ici un aparté pour répondre à une question récurrente. Le système Elo a été conçu pour évaluer le niveau de personnes physiques qui se confrontent directement, en utilisant leurs performances passées. Dans ce contexte, il est stupide de chercher à l'utiliser pour des sports d'équipe dont la composition peut changer à chaque rencontre. C'est le cas du football notamment.
D'ailleurs, même si la composition ne change pas, l'interaction des individus de l'équipe entre eux évolue, et ce paramètre n'entre pas dans le modèle Elo.
Un modèle d'évaluation performant pour les sports d'équipe ne peut donc pas se réclamer d'un modèle Elo.


Les résultats produits pour le tennis sont-ils aussi fiables que pour les échecs ?


Pour préciser de quoi on parle, je reformule la question :
- les pronostics sur l'issue d'une rencontre sont-ils aussi fiables au tennis qu'aux échecs, pour une différence de niveau Elo donnée ?

Hélas non, et il y a peu de chances que cela change, pour des raisons structurelles.
Les échecs sont considérés comme un sport par beaucoup, et il est certain que les grands joueurs d'échecs suivent des protocoles d'entraînement et d'hygiène de vie de même nature que les grands joueurs de tennis. Il reste que :

- il y a peu de sports aussi éprouvants pour les organismes que le tennis, au moins pour les meilleurs joueurs qui enchaînent les tournois : changement de fuseaux horaires, de climat, de conditions de jeu toutes les semaines ou presque, éloignement quasi-permanent de son univers familier sont des facteurs difficiles à
évaluer individuellement par un système d'évaluation,

- les pépins physiques en cours de rencontre sont plus probables au tennis qu'aux échecs ; il y a plus de risques de tendinites, de déchirures musculaires … ou d'accidents avec les bâches pour les adeptes de la petite balle jaune. Or ces pépins sont imprévisibles et indépendants de l'estimation du niveau.

- le choix de la surface de la confrontation est primordiale au tennis (à tel point qu'un système Elo qui ne tient pas compte de la surface est vraiment en défaut). Le phénomène n'existe pas aux échecs.

- les joueurs de tennis ont parfois des « bêtes noires » (des adversaires qui ne leur réussissent pas à cause d'un coup particulièrement fort qu'ils ne peuvent pas contrer ou d'un style de jeu qui les gêne) et peuvent perdre des confrontations même si leur niveau théorique est supérieur. Sous contrôle de spécialistes des échecs, je ne pense pas que le même phénomène y existe.

- Au tennis, il n'y a pas de match nul (on peut estimer que certains matches sont vraiment nuls, mais c'est un autre sujet …). Il faut un vainqueur et quand la rencontre oppose deux joueurs de force proche, l'issue n'est pas vraiment décidable parce que d'autres paramètres prennent plus d'importance que leur différence de niveau. On a donc apparemment des joueurs (un peu) moins forts qui battent assez fréquemment des joueurs plus forts, ce qui diminue la fiabilité du système

- le jeu d'échecs est une discipline essentiellement logique, domaine beaucoup mieux maîtrisé par l'algorithmique qu'une discipline sportive.

- la motivation des joueurs de tennis est fluctuante : tel joueur va avoir tendance à « balancer » un match parce qu'il ne veut pas prendre de risque sur le tournoi suivant, considéré comme plus important, ou tout simplement il y est venu parce que le règlement de l'organisation lui impose sous peine de pénalités financières. Je ne connais pas assez le circuit des joueurs d'échecs pour déterminer si le même phénomène existe, mais ce serait étonnant qu'il prenne les mêmes proportions.

Quels que soient les efforts que nous déploierons, il restera donc toujours une certaine proportion de résultats inattendus, parce qu'ils échappent à toute logique (ou peut-être, plus humblement, parce que nous n'avons pas maîtrisé tous les paramètres). C'est ce qu'il est convenu d'appeler « la glorieuse incertitude du sport ».

Ce n'est pas une raison pour ne pas chercher à la réduire !

Et en face, des Echecs, où il est probable que dans un avenir proche, aucun humain ne gagnera plus contre les machines, le défi de la marge de progrès sur la fiabilité des pronostics de tennis est autrement excitant !



Le système Elo peut-il remplacer le système de classement officiel de l'ATP et de la WTA ?


La philosophie du système de classement officiel (identique au sein de l'ATP et de la WTA) et celle d'un système basé sur une évaluation Elo sont radicalement différentes.

Les systèmes officiels calculent un classement basé sur l'accumulation sur une période de 52 semaines glissantes de points attribués dans les tournois auxquels participent les joueurs. Ces points dépendent de la catégorie du tournoi, décidée par les organisations, et de la réussite du joueur dans les tournois.
Il y a de plus quelques règles qui compliquent le calcul.

Le système Elo détermine la force d'un joueur à un instant t. Le calcul ne dépend que du résultat issu du match et de la force Elo de son adversaire.

Le système officiel est donc un système essentiellement quantitatif, la composante qualitative (la catégorie des tournois) n'étant déterminée que par des choix d'organisation, sans tenir compte du niveau des joueurs participants.
Il ne permet donc pas de classer les joueurs selon leur force.
Son but est de déterminer qui, sur l'ensemble des 52 semaines précédentes, a réussi à accumuler le plus grand nombre de points distribués par les tournois et dans le respect des règles de l'organisation.

Le système Elo n'est que qualitatif. Il a pour but de déterminer qui est le plus fort à un instant donné en se basant uniquement sur la force des adversaires rencontrés, sans tenir aucun compte de l'organisation. Le nombre de matches disputés n'a pas d'incidence significative sur le niveau.

Le tableau ci-dessous présente les différences entre les deux systèmes en face de différents cas de figure :


Cas de figure
Système officiel ATP / WTA
Sytème Elo
Un joueur gagne ou fait d'excellents résultats dans la plupart des grands tournois
Il est n° 1 ou pas loin
Il est peut-être n° 1, mais son classement dépend de la force des adversaires qu'il a battus et de la facilité avec laquelle il les a battus
Un joueur réalise une performance exceptionnelle une seule fois dans un grand tournoi
Il récolte assez de points pour être bien classé durant un an
Si sa performance est vraiment de haut niveau, sa force Elo augmente, mais est rapidement contrebalancée par ses performances moyennes ensuite
Un joueur a dans un grand tournoi des résultats beaucoup plus mauvais que dans le même tournoi l'année précédente
Il perd un grand nombre de points d'un seul coup
Son niveau Elo a évolué toute l'année et sa mauvaise performance dans le tournoi est pondérée par ses autres résultats
Un joueur ne joue que quelques tournois dans l'année
Il récolte peu de points et est mal classé
Son classement ne dépend que de ses résultats
Un joueur va loin dans un tournoi grâce aux abandons de ses adversaires normalement plus forts
Il récolte les points prévus pour le tour atteint au final comme s'il avait réellement battu ses adversaires
Son niveau n'évolue pas
Un joueur est particulièrement chanceux et remporte un tournoi en n'ayant affronté que des joueurs faibles
Il récolte les points prévus pour la victoire dans le tournoi au même titre que s'il avait battu les meilleurs
Son niveau évolue peu
Un joueur est ultra-favori au début du tournoi et le remporte comme attendu
Il récolte les points prévus pour la victoire dans le tournoi au même titre que s'il avait battu des joueurs difficiles
Son niveau évolue peu
Un joueur, blessé, est absent 6 mois de l'année
Il perd un nombre de points variable, correspondant aux points marqués dans la période correspondante de l'année précédente
Son niveau n'évolue pas. A sa reprise, le manque de compétition entraînera souvent des résultats décevants et donc une diminution de son niveau
Un joueur, blessé, est absent plus de 12 mois
Il perd tous ses points et n'est plus classé.
A sa reprise, il peut toutefois bénéficier d'un classement protégé.
Son niveau n'évolue pas. A sa reprise, le manque de compétition entraînera souvent des résultats décevants et donc une diminution de son niveau
Un joueur a tous les ans de mauvais résultats sur une surface donnée. Par exemple, il sort systématiquement au premier tour de tous les tournois sur herbe
Son classement n'évolue pas significativement
Chaque mauvais résultat fait diminuer sa force Elo
2 joueurs de niveau réputé identique participent à 2 tournois différents et de même catégorie la même semaine. Le premier gagne son tournoi facilement, il n'était confronté qu'à des joueurs de faible niveau. Le second gagne aussi après avoir sorti plusieurs joueurs très forts
Les deux joueurs gagnent le même nombre de points
Le second joueur voit son niveau Elo beaucoup plus augmenté que le premier
Un joueur ultra-favori remporte très difficilement un tournoi, après des victoires très laborieuses contre des joueurs faibles
Il récolte les points prévus pour la victoire dans le tournoi au même titre que s'il avait battu des joueurs difficiles
Son niveau Elo n'augmente pas, il peut même diminuer légèrement

En synthèse :

Pour être premier au classement ATP ou WTA, il faut :

- jouer un nombre suffisant de tournois, dans l'idéal l'ensemble des tournois du Grand Chelem et des Masters 1000 ou Premier Mandatory/Premier 5, plus le mix des « petits tournois » préconisé par les organisations.
- aller le plus loin possible dans ces tournois (on s'en doutait !)

Pour être premier au classement Elo, il faut :

- gagner contre des adversaires de niveau Elo élevé et répéter cette performance le plus souvent possible
- surtout ne pas perdre contre des adversaires de niveau Elo faible,
- dans mon système, gagner le plus largement possible.

On voit que les deux systèmes n'ont pas grand-chose à voir.
Donc à la question du remplacement de l'un par l'autre, la réponse est :
- Oui, si on veut changer radicalement de philosophie et désigner comme n°1 le joueur de meilleur niveau à un instant donné,
- Non, si on veut que la notion de n° 1 reste attachée à une accumulation de performances sur un an.

Au delà d'une « guerre des systèmes », je pense qu'il serait raisonnable d'instituer un classement composite prenant en compte des performances quantitatives et qualitatives.
C'est le défi de ce blog, nous y reviendrons donc !

Quelles sont les règles de calcul utilisées sur ce blog ?


Le modèle Elo utilise des paramètres d'ajustement.
Tous les chercheurs ont leurs propres paramètres pour optimiser leurs résultats et les publient rarement.

Je vais également garder le détail de mes recettes de cuisine pour moi, mais voici le principe du calcul :

- Seuls les matches du circuit principal sont pris en compte

- A leur premier match sur le circuit principal, les joueurs se voient attribuer un niveau Elo conventionnel, en fonction de leur rang officiel, et non pas un niveau de débutant ;

- « je pense qu' » il n'y a pas de niveau minimum ni de niveau maximum théoriques. Le niveau conventionnel 1000 est attribué aux joueurs qui disputent leur premier match alors qu'ils sont classés au-delà de la 1024ème place. Rester en dessous de ce niveau n'est clairement pas une bonne nouvelle pour un joueur. A l'autre extrémité, j'enregistre pour l'instant des valeurs maximales autour de 3000. Si des matheux encore plus fous que moi veulent déterminer si mon modèle admet mathématiquement des valeurs limites, ils sont bienvenus.

- le niveau Elo de chaque joueur est réévalué après chaque match.

- Un joueur qui a un niveau Elo plus faible que son adversaire bénéficie d'une attribution de points s'il gagne le match. Son adversaire se voit retirer le même nombre de points. Ce nombre de points dépend de la différence des niveaux Elo des deux adversaires.

- Si c'est le joueur le plus fort qui gagne, il n'y a pas d'attribution de points (et le joueur le plus faible ne subit pas de retrait de points). C'est un résultat normal, qui n'appelle pas de modification de niveau

- Un ajustement de points est calculé en fonction du score du match et de la différence de niveau Elo entre les deux joueurs. Au plus le score est sévère, au plus le vainqueur récolte un nombre de points positifs. Si le vainqueur est censé être beaucoup plus fort que son adversaire mais que le score score est serré, l'ajustement peut être négatif. A ma connaissance, je suis le seul à tenir compte du score dans mes calculs de niveau et ce point me paraît fondamental.

- Si le match se conclut par un abandon (et a fortiori un forfait), on ne procède à aucune modification du niveau Elo, quel que soit le vainqueur déclaré.

- dans tous les cas, si un des joueurs voit son niveau Elo augmenté de n points à l'issue du match, son adversaire voit son niveau Elo diminué du même nombre de points

- les mêmes paramètres sont appliqués pour les hommes et pour les femmes

- les mêmes paramètres de calcul sont appliqués quelque soit la catégorie du tournoi, le round en cours, la surface, etc …

- on calcule non seulement un niveau Elo général pour les joueurs, mais également un niveau Elo par surface.

Les résultats sont-ils probants ?


Au moment de la rédaction de cet article et de façon très synthétique,
le joueur de niveau Elo le plus élevé l'a emporté dans :
- 67,9 % des cas chez les femmes (un peu moins de 40 000 matches évalués)
- 67,7 % des cas chez les hommes (un peu plus de 40 000 matches évalués)

A titre de comparaison, sur le critère du rang officiel,
le joueur le mieux classé l'a emporté dans :
- 66,5 % des cas chez les femmes (environ 41 000 matches évalués)
- 66,5 % des cas chez les hommes (environ 42 000 matches évalués)

Les résultats produits par le critère du niveau Elo sont donc plus performants que ceux issus du rang officiel.

La différence peut sembler faible, mais elle est d'un point de vue statistique très réelle : sur les 80 000 matches étudiés, cela représente tout de même environ 1000 pronostics corrects supplémentaires !
Les amateurs de paris sportifs apprécieront.

Je profite de l'occasion pour signaler que les résultats des femmes sont exactement aussi prévisibles que ceux des hommes, contrairement à une idée reçue tenace…

* _____________________*

Les lecteurs pressés se satisferont de cette synthèse. Pour ceux qui sont plus attentifs, il est certain que cette statistique synthétique n'est pas complètement significative, parce qu'elle passe sous silence les résultats produits dans des cas de figure différents :

exemple 1 : selon la différence de rang ou de niveau Elo
- si le 137 ème au classement ATP rencontre le 140 ème, on se doute que le critère du mieux classé est moins performant que quand le n° 1 rencontre le 800 ème.
- de la même façon en termes de niveau Elo, ce n'est pas la même chose si un joueur de niveau 1700 affronte un adversaire de niveau 1680 ou bien si la rencontre oppose un joueur de niveau 2000 à un adversaire de niveau 1300.

exemple 2 : selon la surface :
- la fiabilité des résultats est-elle différente selon que le matche a lieu sur herbe, sur terre battue, sur dur, en indoor ou en outdoor ?

exemple 3 : selon la nature du tournoi :
- les favoris tiennent-ils mieux leur rang quand ils jouent un « gros » tournoi ?

Voilà des questions passionnantes auxquels nous répondrons au fil des articles qui paraîtront dans les prochains mois !






Commentaires