Παρασκευή 2 Ιουλίου 2010

Soccernomics και άλλα μοντέλα

Έχω πάρα πολλά στατιστικά από το παγκόσμιο κύπελλο και σιγά σιγά θα τα παρουσιάσω μιας και ο όγκος δεδομένων για ένα τόσο προβεβλημένο γεγονός είναι τεράστιος.
 Για να μην ακολουθούμε όμως μόνο τους αγώνες, αλλά και γιατί φαίνεται η πρόβλεψη πιο ενδιαφέρουσα θα προσπαθήσω να παρουσιάσω κάποια μοντέλα πρόβλεψης για το παγκόσμιο κύπελλο και θα επανέλθω με στατιστικά ενδιάμεσα ώστε να δούμε πως θα τα πάνε.
Ένα γνωστό μοντέλο  είναι το Soccernomics το οποίο παρουσιάστηκε στο Βρετανικό Wired και είναι αποτέλεσμα της δουλειάς των Simon Kuper και Stefan Szymanski.
Αυτό το μοντέλο λαμβάνει ώς παραμέτρους τον πληθυσμό,το ΑΕΠ, και την εμπειρία των εθνικών ομάδων για να φτάσει στην διαφορά τερμάτων στο μεταξύ τους παιχνίδι.
Να σημειώσουμε ότι το συγκεκριμένο μοντέλο εφαρμόζεται για ευνόητους λόγους μόνο για αγώνες μεταξύ εθνικών ομάδων.

Αν λοιπόν αγωνίζονται δύο ομάδες έστω οι i και j τότε το μοντέλο χρησιμοποιεί τον παρακάτω τύπο για να προβλέψει την διαφορά τερμάτων μεταξύ των δύο ομάδων :

GD(ij) = 0.137 ln[pop(i)/pop(j))] + 0.145 ln[GDP(i/GDP(j))] + 0.739 ln[exp(i)/exp(j)] + 0.657 για τον γηπεδούχο.

Στις περιπτώσεις του Παγκοσμίου Κυπέλλου δεν έχουμε πλεονέκτημα γηπεδούχου εκτός της Ν.Αφρικής η οποία αποκλείστηκε αν και κάποιες τροποποιήσεις του μοντέλου βάζουν το μισό πλεονέκτημα σαν πλεονέκτημα ηπείρου και άρα στις ομάδες που συνεχίζουν το έχει μόνο η Γκάνα.
 Στο παρόν θα αρκεστώ να μην το έχει κανένας μιας και δεν είναι ξεκάθαρο και επομένως να απλοποιήσω τον τύπο εξαιρώντας το τελευταίο σκέλος του.

Για τον πληθυσμό χρησιμοποιώ την Wikipedia σαν πηγή καθώς και για το ΑΕΠ ενώ για την εμπειρία χρησιμοποιώ το AIFR που έχει όλους τους αγώνες των εθνικών ομάδων ( και φιλικούς ) από το 1872 ως το 2001 .
Θα προσπαθήσω να προσθέσω και μετά το 2001 τους αγώνες και μετά θα συγκρίνω για αξιόλογες διαφορές, αλλά προς το παρόν θα αρκεστούμε σε αυτά τα δεδομένα.

Ας δούμε πρώτα 2 παιχνίδια που έχουν ήδη γίνει και μετά θα δούμε τα παιχνίδια που θα οδηγήσουν στους ημιτελικούς για να έχουμε και μια πρόβλεψη βάση του παραπάνω μοντέλου.

Πληθυσμός


• Αγγλία: 62,041,708


• ΗΠΑ : 309,488,000


ΑΕΠ


• Αγγλία: $35,334


• ΗΠΑ : $46,381


Εμπειρία:


• Αγγλία: 780 αγώνες


• ΗΠΑ : 403 αγώνες


Βάζοντας τις παραπάνω μεταβλητές στον τύπο μας βγάζει μια διαφορά 0,22 γκολ υπέρ της Αγγλίας.
 Η Αγγλία ευνοείται από την σχεδόν διπλάσια εμπειρία της η οποία χοντρικά μετράει 6 φορές περισσότερο από τις άλλες μεταβλητές. Έτσι σύμφωνα με το μοντέλο ο αγώνας θα ήταν πολύ πιο μοιρασμένος σε σχέση με τις αποδόσεις των εταιριών στοιχημάτων.

Πληθυσμός


• Αργεντινή: 40,134,425


• Μεξικό : 107,550,697


ΑΕΠ


• Αργεντινή: $7,726


• Μεξικό : $8,135


Εμπειρία:


• Αργεντινή : 770 αγώνες


• Μεξικό : 554 αγώνες


Το Αργεντινή – Μεξικό μας βγάζει μια διαφορά 0,1 γκολ υπέρ της Αργεντινής.
 Εδώ το μοντέλο μας έδινε ένα ακόμα πιο μοιρασμένο παιχνίδι που δεν επαληθεύτηκε από το 3-1 της Αργεντινής εκτός και αν αναζητήσουμε τις ευθύνες στο οφσάιντ πρώτο γκολ της Αργεντινής.

Ακόμα και έτσι όμως θα δούμε σε άλλο ποστ πώς επηρεάζεται ένα παιχνίδι από το γκολ μιας ομάδας και το γκολ της Αργεντινής δεν αποτελεί δικαιολογία.

Προσεχώς λοιπόν για τα παιχνίδια της Παρασκευής και του Σαββάτου έχουμε :


Βραζιλία – Ολλανδία +0,22 γκολ υπέρ Βραζιλίας


Ουρουγουάη – Γκάνα +0,53 γκολ υπέρ Ουρουγουάης


Αργεντινή – Γερμανία +0,27 γκολ υπέρ Γερμανίας


Ισπανία – Παραγουάη +0,59 γκολ υπέρ Ισπανίας


Άρα το συμπέρασμα είναι πιο άνετη πρόκριση για Ισπανία και Ουρουγουάη και πιο δύσκολη για Γερμανία και Βραζιλία αντίστοιχα.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου