Le système Elo
Dans
ce blog, nous faisons un usage régulier d'un système d'évaluation
basé sur les niveaux Elo des joueurs
Cela
mérite une explication.
Qu'est-ce que le système Elo original ?
Le
système d'évaluation Elo a été mis au point pour évaluer la
force des joueurs d'échecs. Il tire son nom du physicien et joueur
d'échecs Arpad Elo qui l'a modélisé.
Le
principe est simple : on attribue un niveau Elo en fonction de
la force des joueurs, en étudiant leurs performances passées.
La
différence de niveau entre les 2 joueurs donne une probabilité sur
l'issue de leur confrontation. 2 joueurs de force Elo identique ont
chacun 50 % de chances de victoire. Au plus la différence de
niveau est grande, au plus le joueur le plus fort a une forte
probabilité de l'emporter.
Après
chaque confrontation, on remet à jour le niveau des joueurs ;
si le vainqueur a réalisé une performance meilleure qu'attendue par
le modèle mathématique, il gagne des points Elo. Son adversaire se
voit retirer le même nombre de points.
Pour
plus de détails, vous pouvez consulter l'article
sur Wikipedia.
Comme
souvent, la version anglaise est plus complète ; si vous lisez
l'anglais, vous la trouverez ici.
Quelles sont les règles du calcul du niveau Elo ?
Je
ne vais pas vous assommer ici avec des formules mathématiques, des
lois normales, des tables de probabilité, etc …
Les
matheux pourront trouver des détails sur les articles de Wikipedia
précités.
Peut-il être utilisé pour le tennis ?
Oui,
bien sûr. Un des génies du Professeur Elo est d'avoir conçu un
système pouvant être utilisé pour tous les événements
confrontant 2 personnes.
Je
fais ici un aparté pour répondre à une question récurrente. Le
système Elo a été conçu pour évaluer le niveau de personnes
physiques qui se confrontent directement, en utilisant leurs
performances passées. Dans ce contexte, il est stupide de chercher à
l'utiliser pour des sports d'équipe dont la composition peut changer
à chaque rencontre. C'est le cas du football notamment.
D'ailleurs,
même si la composition ne change pas, l'interaction des individus de
l'équipe entre eux évolue, et ce paramètre n'entre pas dans le
modèle Elo.
Un
modèle d'évaluation performant pour les sports d'équipe ne peut
donc pas se réclamer d'un modèle Elo.
Les résultats produits pour le tennis sont-ils aussi fiables que pour les échecs ?
Pour
préciser de quoi on parle, je reformule la question :
-
les pronostics sur l'issue d'une rencontre sont-ils aussi fiables au
tennis qu'aux échecs, pour une différence de niveau Elo donnée ?
Hélas
non, et il y a peu de chances que cela change, pour des raisons
structurelles.
Les échecs sont considérés comme un sport par beaucoup, et il est
certain que les grands joueurs d'échecs suivent des protocoles
d'entraînement et d'hygiène de vie de même nature que les grands
joueurs de tennis. Il reste que :
- il y a peu de sports aussi éprouvants pour les organismes que le
tennis, au moins pour les meilleurs joueurs qui enchaînent les
tournois : changement de fuseaux horaires, de climat, de
conditions de jeu toutes les semaines ou presque, éloignement
quasi-permanent de son univers familier sont des facteurs difficiles
à
évaluer individuellement par un système d'évaluation,
- les pépins physiques en cours de rencontre sont plus probables au
tennis qu'aux échecs ; il y a plus de risques de tendinites,
de déchirures musculaires … ou d'accidents avec les bâches pour
les adeptes de la petite balle jaune. Or ces pépins sont
imprévisibles et indépendants de l'estimation du niveau.
- le choix de la surface de la confrontation est primordiale au
tennis (à tel point qu'un système Elo qui ne tient pas compte de la
surface est vraiment en défaut). Le phénomène n'existe pas aux
échecs.
- les joueurs de tennis ont parfois des « bêtes noires »
(des adversaires qui ne leur réussissent pas à cause d'un coup
particulièrement fort qu'ils ne peuvent pas contrer ou d'un style de
jeu qui les gêne) et peuvent perdre des confrontations même si leur
niveau théorique est supérieur. Sous contrôle de spécialistes des
échecs, je ne pense pas que le même phénomène y existe.
- Au
tennis, il n'y a pas de match nul (on peut estimer que certains
matches sont vraiment nuls, mais c'est un autre sujet …). Il faut
un vainqueur et quand la rencontre oppose deux joueurs de force
proche, l'issue n'est pas vraiment décidable parce que d'autres
paramètres prennent plus d'importance que leur différence de
niveau. On a donc apparemment des joueurs (un peu) moins forts qui
battent assez fréquemment des joueurs plus forts, ce qui diminue la
fiabilité du système
- le
jeu d'échecs est une discipline essentiellement logique, domaine
beaucoup mieux maîtrisé par l'algorithmique qu'une discipline
sportive.
- la
motivation des joueurs de tennis est fluctuante : tel joueur va
avoir tendance à « balancer » un match parce qu'il ne
veut pas prendre de risque sur le tournoi suivant, considéré comme
plus important, ou tout simplement il y est venu parce que le
règlement de l'organisation lui impose sous peine de pénalités
financières. Je ne connais pas assez le circuit des joueurs d'échecs
pour déterminer si le même phénomène existe, mais ce serait
étonnant qu'il prenne les mêmes proportions.
Quels
que soient les efforts que nous déploierons, il restera donc
toujours une certaine proportion de résultats inattendus, parce
qu'ils échappent à toute logique (ou peut-être, plus humblement,
parce que nous n'avons pas maîtrisé tous les paramètres). C'est ce
qu'il est convenu d'appeler « la glorieuse incertitude du
sport ».
Ce
n'est pas une raison pour ne pas chercher à la réduire !
Et
en face, des Echecs, où il est probable que dans un avenir proche,
aucun humain ne gagnera plus contre les machines, le défi de la
marge de progrès sur la fiabilité des pronostics de tennis est
autrement excitant !
Le système Elo peut-il remplacer le système de classement officiel de l'ATP et de la WTA ?
La
philosophie du système de classement officiel (identique au sein de
l'ATP et de la WTA) et celle d'un système basé sur une évaluation
Elo sont radicalement différentes.
Les
systèmes officiels calculent un classement basé sur l'accumulation
sur une période de 52 semaines glissantes de points attribués dans
les tournois auxquels participent les joueurs. Ces points dépendent
de la catégorie du tournoi, décidée par les organisations, et de
la réussite du joueur dans les tournois.
Il y
a de plus quelques règles qui compliquent le calcul.
Le
système Elo détermine la force d'un joueur à un instant t. Le
calcul ne dépend que du résultat issu du match et de la force Elo
de son adversaire.
Le
système officiel est donc un système essentiellement quantitatif,
la composante qualitative (la catégorie des tournois) n'étant
déterminée que par des choix d'organisation, sans tenir compte du
niveau des joueurs participants.
Il
ne permet donc pas de classer les joueurs selon leur force.
Son
but est de déterminer qui, sur l'ensemble des 52 semaines
précédentes, a réussi à accumuler le plus grand nombre de points
distribués par les tournois et dans le respect des règles de
l'organisation.
Le
système Elo n'est que qualitatif. Il a pour but de déterminer qui
est le plus fort à un instant donné en se basant uniquement sur la
force des adversaires rencontrés, sans tenir aucun compte de
l'organisation. Le nombre de matches disputés n'a pas d'incidence
significative sur le niveau.
Le
tableau ci-dessous présente les différences entre les deux systèmes
en face de différents cas de figure :
Cas de figure
|
Système officiel ATP / WTA
|
Sytème Elo
|
Un joueur gagne ou fait d'excellents résultats
dans la plupart des grands tournois
|
Il est n° 1 ou pas loin
|
Il est peut-être n° 1, mais son classement
dépend de la force des adversaires qu'il a battus et de la
facilité avec laquelle il les a battus
|
Un joueur réalise une performance
exceptionnelle une seule fois dans un grand tournoi
|
Il récolte assez de points pour être bien
classé durant un an
|
Si sa performance est vraiment de haut niveau,
sa force Elo augmente, mais est rapidement contrebalancée par ses
performances moyennes ensuite
|
Un joueur a dans un grand tournoi des résultats
beaucoup plus mauvais que dans le même tournoi l'année
précédente
|
Il perd un grand nombre de points d'un seul
coup
|
Son niveau Elo a évolué toute l'année et sa
mauvaise performance dans le tournoi est pondérée par ses autres
résultats
|
Un joueur ne joue que quelques tournois dans
l'année
|
Il récolte peu de points et est mal classé
|
Son classement ne dépend que de ses résultats
|
Un joueur va loin dans un tournoi grâce aux
abandons de ses adversaires normalement plus forts
|
Il récolte les points prévus pour le tour
atteint au final comme s'il avait réellement battu ses
adversaires
|
Son niveau n'évolue pas
|
Un joueur est particulièrement chanceux et
remporte un tournoi en n'ayant affronté que des joueurs faibles
|
Il récolte les points prévus pour la victoire
dans le tournoi au même titre que s'il avait battu les meilleurs
|
Son niveau évolue peu
|
Un joueur est ultra-favori au début du tournoi
et le remporte comme attendu
|
Il récolte les points prévus pour la victoire
dans le tournoi au même titre que s'il avait battu des joueurs
difficiles
|
Son niveau évolue peu
|
Un joueur, blessé, est absent 6 mois de
l'année
|
Il perd un nombre de points variable,
correspondant aux points marqués dans la période correspondante
de l'année précédente
|
Son niveau n'évolue pas. A sa reprise, le
manque de compétition entraînera souvent des résultats
décevants et donc une diminution de son niveau
|
Un joueur, blessé, est absent plus de 12 mois
|
Il perd tous ses points et n'est plus classé.
A sa reprise, il peut toutefois bénéficier
d'un classement protégé.
|
Son niveau n'évolue pas. A sa reprise, le
manque de compétition entraînera souvent des résultats
décevants et donc une diminution de son niveau
|
Un joueur a tous les ans de mauvais résultats
sur une surface donnée. Par exemple, il sort systématiquement au
premier tour de tous les tournois sur herbe
|
Son classement n'évolue pas significativement
|
Chaque mauvais résultat fait diminuer sa force
Elo
|
2 joueurs de niveau réputé identique
participent à 2 tournois différents et de même catégorie la
même semaine. Le premier gagne son tournoi facilement, il n'était
confronté qu'à des joueurs de faible niveau. Le second gagne
aussi après avoir sorti plusieurs joueurs très forts
|
Les deux joueurs gagnent le même nombre de
points
|
Le second joueur voit son niveau Elo beaucoup
plus augmenté que le premier
|
Un joueur ultra-favori remporte très
difficilement un tournoi, après des victoires très laborieuses
contre des joueurs faibles
|
Il récolte les points prévus pour la victoire
dans le tournoi au même titre que s'il avait battu des joueurs
difficiles
|
Son niveau Elo n'augmente pas, il peut même
diminuer légèrement
|
En
synthèse :
Pour
être premier au classement ATP ou WTA, il faut :
-
jouer un nombre suffisant de tournois, dans l'idéal l'ensemble des
tournois du Grand Chelem et des Masters 1000 ou Premier
Mandatory/Premier 5, plus le mix des « petits tournois »
préconisé par les organisations.
-
aller le plus loin possible dans ces tournois (on s'en doutait !)
Pour
être premier au classement Elo, il faut :
-
gagner contre des adversaires de niveau Elo élevé et répéter
cette performance le plus souvent possible
-
surtout ne pas perdre contre des adversaires de niveau Elo faible,
-
dans mon système, gagner le plus largement possible.
On
voit que les deux systèmes n'ont pas grand-chose à voir.
Donc
à la question du remplacement de l'un par l'autre, la réponse est :
-
Oui, si on veut changer radicalement de philosophie et
désigner comme n°1 le joueur de meilleur niveau à un instant
donné,
-
Non, si on veut que la notion de n° 1 reste attachée
à une accumulation de performances sur un an.
Au
delà d'une « guerre des systèmes », je pense qu'il
serait raisonnable d'instituer un classement composite prenant en
compte des performances quantitatives et qualitatives.
C'est
le défi de ce blog, nous y reviendrons donc !
Quelles sont les règles de calcul utilisées sur ce blog ?
Le
modèle Elo utilise des paramètres d'ajustement.
Tous
les chercheurs ont leurs propres paramètres pour optimiser leurs
résultats et les publient rarement.
Je
vais également garder le détail de mes recettes de cuisine pour
moi, mais voici le principe du calcul :
-
Seuls les matches du circuit principal sont pris en compte
- A
leur premier match sur le circuit principal, les joueurs se voient
attribuer un niveau Elo conventionnel, en fonction de leur rang
officiel, et non pas un niveau de débutant ;
-
« je pense qu' » il n'y a pas de niveau minimum ni de
niveau maximum théoriques. Le niveau conventionnel 1000 est attribué
aux joueurs qui disputent leur premier match alors qu'ils sont
classés au-delà de la 1024ème place. Rester en dessous de ce
niveau n'est clairement pas une bonne nouvelle pour un joueur. A
l'autre extrémité, j'enregistre pour l'instant des valeurs
maximales autour de 3000. Si des matheux encore plus fous que moi
veulent déterminer si mon modèle admet mathématiquement des
valeurs limites, ils sont bienvenus.
- le
niveau Elo de chaque joueur est réévalué après chaque match.
- Un
joueur qui a un niveau Elo plus faible que son adversaire bénéficie
d'une attribution de points s'il gagne le match. Son
adversaire se voit retirer le même nombre de points. Ce nombre de
points dépend de la différence des niveaux Elo des deux
adversaires.
- Si
c'est le joueur le plus fort qui gagne, il n'y a pas d'attribution de
points (et le joueur le plus faible ne subit pas de retrait de
points). C'est un résultat normal, qui n'appelle pas
de modification de niveau
- Un
ajustement de points est calculé en fonction du score du
match et de la différence de niveau Elo entre les deux joueurs. Au
plus le score est sévère, au plus le vainqueur récolte un nombre
de points positifs. Si le vainqueur est censé être beaucoup plus
fort que son adversaire mais que le score score est serré,
l'ajustement peut être négatif. A ma connaissance, je suis le seul
à tenir compte du score dans mes calculs de niveau et ce point me
paraît fondamental.
- Si
le match se conclut par un abandon (et a fortiori un forfait), on ne
procède à aucune modification du niveau Elo, quel que soit le
vainqueur déclaré.
-
dans tous les cas, si un des joueurs voit son niveau Elo augmenté de
n points à l'issue du match, son adversaire voit son niveau Elo
diminué du même nombre de points
-
les mêmes paramètres sont appliqués pour les hommes et pour les
femmes
-
les mêmes paramètres de calcul sont appliqués quelque soit la
catégorie du tournoi, le round en cours, la surface, etc …
- on
calcule non seulement un niveau Elo général pour les joueurs, mais
également un niveau Elo par surface.
Les résultats sont-ils probants ?
Au
moment de la rédaction de cet article et de façon très
synthétique,
le
joueur de niveau Elo le plus élevé l'a emporté dans :
-
67,9 % des cas chez les femmes (un
peu moins de 40 000 matches évalués)
-
67,7 % des cas chez les hommes
(un peu plus de 40 000 matches évalués)
A
titre de comparaison, sur le critère du rang officiel,
le
joueur le mieux classé l'a emporté dans :
-
66,5 % des cas chez les femmes (environ
41 000 matches évalués)
-
66,5 % des cas chez les hommes
(environ 42 000 matches évalués)
Les
résultats produits par le critère du niveau Elo sont donc plus
performants que ceux issus du rang officiel.
La
différence peut sembler faible, mais elle est d'un point de vue
statistique très réelle : sur les 80 000 matches étudiés,
cela représente tout de même environ 1000 pronostics corrects
supplémentaires !
Les
amateurs de paris sportifs apprécieront.
Je
profite de l'occasion pour signaler que les résultats des femmes
sont exactement aussi prévisibles que ceux des hommes, contrairement
à une idée reçue tenace…
* _____________________*
Les
lecteurs pressés se satisferont de cette synthèse. Pour ceux qui
sont plus attentifs, il est certain que cette statistique synthétique
n'est pas complètement significative, parce qu'elle passe sous
silence les résultats produits dans des cas de figure différents :
exemple
1 : selon la différence de rang ou de niveau Elo
- si
le 137 ème au classement ATP rencontre le 140 ème, on se doute que
le critère du mieux classé est moins performant que quand le n° 1
rencontre le 800 ème.
- de
la même façon en termes de niveau Elo, ce n'est pas la même chose
si un joueur de niveau 1700 affronte un adversaire de niveau 1680 ou
bien si la rencontre oppose un joueur de niveau 2000 à un adversaire
de niveau 1300.
exemple
2 : selon la surface :
- la
fiabilité des résultats est-elle différente selon que le matche a
lieu sur herbe, sur terre battue, sur dur, en indoor ou en outdoor ?
exemple
3 : selon la nature du tournoi :
-
les favoris tiennent-ils mieux leur rang quand ils jouent un « gros »
tournoi ?
Voilà
des questions passionnantes auxquels nous répondrons au fil des
articles qui paraîtront dans les prochains mois !
Commentaires
Enregistrer un commentaire
Vous pouvez laisser un commentaire sur cet article. Attention, tous les commentaires sont modérés ; les contenus légalement répréhensibles et ceux dénigrant les personnes, en particulier les joueurs et joueuses, sont systématiquement supprimés.