Um was geht es bei SEW Soccer Analytics?
Seit der Saison 2015/16 präsentiert die Forschungsgruppe Sportökonomik des Schweizerischen Instituts für Empirische Wirtschaftsforschung die „SEW Soccer Analytics“. Hauptziel ist es dabei die Abschlusstabelle einer Bundesliga-Saison zu prognostizieren. Dafür werden bereits vor der Saison alle verfügbaren Informationen zusammengetragen um eine erste Prognose vor Saisonbeginn zu erstellen. Diese erste Prognose zeigt dann das erwartete Abschneiden der Teams an und wird als Vergleichswert für das tatsächliche Abschneiden während der Saison verwendet. Im Laufe der Saison wird das Prognosemodell nach jedem Spieltag mit den neuen Ergebnissen und Entwicklungen gefüttert und aktualisiert. So passt sich die Prognose auch an unerwartet gute oder schlechte Leistungen bestimmter Teams an. Als «Nebenprodukt» werden für die Prognose die Wahrscheinlichkeiten aller Spielausgänge der verbleibenden Saison geschätzt und jeweils für den nächsten Spieltag publiziert. Dabei ist zu betonen, dass unsere Prognose nicht Sieger und Verlierer vorhersagen soll, sondern jeweils die Wahrscheinlichkeiten eines bestimmten Ausgangs abbildet. Haushohe Favoriten oder knappe Spiele können somit gut erkannt werden.
Wie funktioniert die Prognose?
Für die Prognose greifen wir auf eine umfangreiche Datenbasis von Informationen zurück, die unter anderem frühere Spielergebnisse und Spielweisen, den aktuellen Kader, das Umfeld und den Spielplan der aktuellen Saison beinhaltet. Die statistischen Methoden des Machine Learnings werden dazu verwendet aus der Fülle von Informationen diejenigen herauszufiltern, die in der Vergangenheit eine nachweisliche Vorhersagekraft für den Ausgang von Fussballspielen der Bundesliga hatten. So entsteht ein Prognosemodell, welches anhand der beobachteten Informationen die Wahrscheinlichkeiten eines Heimsiegs, eines Unentschiedens, sowie eines Auswärtssiegs für alle kommenden Spiele bis Saisonende berechnet. Daraus kann die erwartete Punktzahl einer Mannschaft aus jedem Spiel berechnet werden. Zum Beispiel würde für eine Mannschaft mit den prognostizierten Wahrscheinlichkeiten 50% Sieg, 30% Unentschieden und 20% Niederlage eine erwartete Punktzahl von 0.5*3 + 0.3*1 + 0.2*0 = 1.8 berechnet.
In den allermeisten Fällen entspricht die erwartete Punktzahl nicht der tatsächlich erreichten Punktzahl, da keine Mannschaft wirklich 1.8 Punkte bekommt. Wenn man aber die erwartete Punktzahl dieser Spiele über die restliche Saison zusammenzählt, erhält man eine Prognose für die Punktzahl am Ende der Saison und kann daraus eine Abschlusstabelle erstellen. Dabei kann es passieren, dass mehrere Mannschaften sehr nah beieinander liegen und sich die Reihenfolge durch unerwartete Siege oder Niederlagen wieder verschiebt. Daher sollte der prognostizierte Tabellenplatz anhand der prognostizierten Punktzahl nur als erster Richtwert gesehen werden, der einer gewissen Unsicherheit unterliegt. Um dieser Unsicherheit Rechnung zu tragen simulieren wir die restliche Saison mehr als 10.000-mal. Dafür werden die restlichen Paarungen der Saison vom Computer durchgespielt. Der Spielausgang jedes Spiels wird dabei zufällig auf Basis der prognostizierten Wahrscheinlichkeiten des Prognosemodells gezogen. Wenn erneut eine prognostizierte Wahrscheinlichkeiten von 50% Heimsieg, 30% Unentschieden und 20% Auswärtssieg betrachtet wird, würde in 100 Simulationen die Heimmannschaft 50-mal gewinnen, 30-mal Unentschieden gespielt und 20-mal würde die Auswärtsmannschaft gewinnen. Je nachdem welche Spielausgänge in einer Simulation für die Spiele der jeweiligen Mannschaften gezogen wurden, ergibt sich eine andere Platzierung in der Abschlusstabelle. Daraus können wir berechnen wie häufig eine Mannschaft in den Simulationen auf einem bestimmten Tabellenplatz gelandet ist.
Die methodischen Details haben wir in diesem Arbeitspapier beschrieben.