Data-Analytics in Schach – Teil 1

Schach ist in aller Munde – vor allem im Jahr 2020 hat Schach durch diverse Einflussfaktoren einen Aufschwung bekommen. Zum einem begünstigte die Coronavirus-Pandemie den bequem von zuhause spielbaren Sport, zum anderen hat Schach über Medien, wie z.B. die Netflix-Verfilmung „Das Damengambit“ neue Anhänger gefunden. Die Zahlen spiegeln dies wieder: Im Vergleich zum Vorjahr wurde auf der Internet-Plattform lichess.com 86% mehr Partien gespielt.

Data-Analytics liegt uns im Blut und Daten über Schachspiele liegen vielerorts frei verfügbar.

Wir als Schachfans konnten bei so einem Datenschatz nicht widerstehen und haben unsere Data-Analytics-Fähigkeiten eingesetzt, um spannende Erkenntnisse aus den Partien zu ziehen. Diese wollen wir in diesem und folgenden Blog-Einträgen mit euch teilen.

Wir haben über 1,5 Milliarden Partien gesammelt

Lichess.com ist eine kostenlose Open-Source Schachplattform. Regelmäßig spielen hier über 100.000 Schachspieler gleichzeitig Partien. Diese Partien können über eine Schnittstelle von lichess gezogen werden. Wir haben alle Spiele aus den Jahren 2017 bis 2020 für unsere Analysen heruntergeladen – insgesamt 1,5 Milliarden Spiele.

Zu jedem Spiel sind dabei folgende Informationen enthalten:

  • Link zum Spiel auf der lichess-Plattform
  • Spielernamen und Spielerratings
  • Spielergebnis
  • Die gespielte Eröffnung
  • Verfügbare Bedenkzeit
  • Die einzelnen Züge der Partie

All diese Daten sind in einer standardisierten Notation, der sogenannten PGN-Notation, kodiert:

[Event "Rated Classical game"]
[Site "https://lichess.org/j1dkb5dw"]
[White "BFG9k"]
[Black "mamalak"]
[Result "1-0"]
[UTCDate "2012.12.31"]
[UTCTime "23:01:03"]
[WhiteElo "1639"]
[BlackElo "1403"]
[WhiteRatingDiff "+5"]
[BlackRatingDiff "-8"]
[ECO "C00"]
[Opening "French Defense: Normal Variation"]
[TimeControl "600+8"]
[Termination "Normal"]

1. e4 e6 2. d4 b6 3. a3 Bb7 4. Nc3 Nh6 5. Bxh6 gxh6 6. Be2 Qg5 7. Bg4 h5 8. Nf3 Qg6 9. Nh4 Qg5 10. Bxh5 Qxh4 11. Qf3 Kd8 12. Qxf7 Nc6 13. Qe8# 1-0

Wir haben die Daten über ein Python-Script mit Multiprocessing geparsed, die Daten aufbereitet und in eine eigene Datenbank abgespeichert. So können wir im Weiteren effizient Analysen durchführen.

Die Beliebtheit von Eröffnungen hängt von vielen Faktoren ab

Bereits nach zwei Schachzügen können 72.084 verschiedene Stellungen entstehen. Die Anzahl der verschiedenen Spielverläufe im Schach wird auf über 10^115 Möglichkeiten geschätzt. Das sind mehr als es Atome im Universum gibt. Trotz dieser Komplexität gibt es im Schach Eröffnungstheorien. Diese sind eine Art Best-Practices für die ersten Züge einer Partie. Doch wie beliebt sind die unterschiedlichen Eröffnungen tatsächlich? Und wie verändert sich die Popularität im Verlauf der Zeit, des Skill-Levels der Spieler und der zur Verfügung stehenden Bedenkzeit?

Häufigste und selteste Eröffnungen

Eröffnungen werden im Schach mit ECO-Codes versehen. Bei den ECO-Codes handelt es sich um ein System, dass allen Eröffnungen einen bestimmten dreistelligen Code zuweist. ECO steht dabei für die „Encyclopedia of Chess Openings“.

Top-10 Eco Codes wobei die Irreguläre Eröffnung am häufigsten vorkommt
Abbildung 1: Top-10 ECO-Codes

Abbildung 1 zeigt, dass der am meisten gespielte ECO-Code A00 ist, welcher für alle irregulären Eröffnungen steht. Also alle Eröffnungen von weiß, in denen zum Beispiel die Randbauern gezogen werden. Der zweithäufigste ECO-Code ist A40 und behandelt irreguläre Antworten auf den Zug 1 d4.

Die Schlussfolgerung, dass irreguläre Eröffnungen besonders häufig gespielt werden ist aber nur in Teilen korrekt. Reguläre Eröffnungen besitzen eigenständige Eröffnungscodes für eine Vielzahl von relativ tiefen und speziellen Stellungen. Zur Verdeutlichung: Eine irreguläre Eröffnung wie 1. a3 wurde in unserem Datensatz 148.099 mal gespielt. Damit ist es deutlich seltener als ein regulärer Zug wie 1. e4 mit 91.129.037 Partien. Da 1.e4 allerdings so populär ist, geht die Theorie sehr tief und in den Folgezügen wird dieser Partiestart auf insgesamt 200 ECO Codes aufgeteilt. Partien welche mit 1. a3 anfangen haben aber keine tieferen ECO Codes und zählen alle zu A00, wie auch die Züge 1. a4, 1. b4, 1. c3, 1.d3, 1.e3, 1.f3, 1.g3, 1.g4, 1.h3, 1. h4, 1.Sa3, 1.Sc3 und 1. Sh3.

Die 10 am seltensten gespielten Eröffnungen. Die seltenste Eröffnung ist eine Variante des abgelehnten Damengambits (D65).
Abbildung 2: Bottom-10 ECO-Codes

Wie in Abbildung 2 zu sehen ist, ist der seltenste ECO-Code D65. Dieser bezeichnet eine Variante der orthodoxen Verteidigung im abgelehnten Damengambit. D99 ist eine Variante der sowieso selten gespielten Grunfeld Eröffnungen und E58 eine Variante aus von Nimzowitsch-Indisch. Alle seltenen ECO-Codes gehören zu sehr tiefen Eröffnungen. ECO Codes sind also nur bedingt direkt miteinander vergleichbar.

Häufigkeit von Eröffnungskategorien. Das Königsbauernspiel ist die häufigste Eröffnung. Die Grunfeld Varianten die Seltensten.
Abbildung 3: Beliebteste Eröffnungskategorien

Um das Problem der unterschiedlichen Zugtiefen der ECO-Codes auszugleichen, haben wir die Eröffnungen in zusammengehörige Gruppen klassifiziert (siehe Abbildung 3). Die Aussagekraft dieser Abbildung ist für das allgemeine Verständnis der Beliebtheit von Eröffnungen deutlich brauchbarer. Es ist zu sehen, dass das Standard Königsbauernspiel mit 1. e4 e5 die am häufigsten gespielte Kategorie ist. Auf Platz zwei und drei sind die Damenbauernspiele mit 1. d4 d5 und die sizilianischen Varianten mit 1. e4 c5.

Häufigkeit von Eröffnungen im Verlauf der Zeit

Die gespielten Eröffnungen sind sehr konstant im Verlauf der Zeit.
Abbildung 4: Häufigkeit von Eröffnungen im Verlauf der Zeit

Abbildung 4 zeigt, dass die Verteilung von gespielten Eröffnungen über die Zeit relativ konstant ist.

Häufigkeit von Eröffnungen nach Spielstärke

Abbildung der Häufigkeit von Eröffnungen nach Spielstärke. Die Beliebtheit hängt stark von der Spielstärke ab. Schwächere Spieler spielen sehr viel die Königsbauernspiele. Stärkere Spieler spielen deutlich mehr verschiedene Eröffnungen.
Abbildung 5: Häufigkeit von Eröffnungen nach Spielstärke (Elo)

Schaut man sich die unterschiedlichen Eröffnungen allerdings in Abhängigkeit der Spielstärke der Spieler in Abbildung 5 an, ergibt sich ein ganz anderes Bild. Für die Spielstärke der Spieler haben wir die gemittelte Elozahl beider Spieler herangezogen. Die Elozahl ist eine in Schach übliche Messweise der Spielstärke – umso höher, umso stärker der Spieler. Über die verschiedenen Spielerstärken hinweg gibt es starke Änderungen in der Häufigkeit von Eröffnungen.

Am stärksten ist es erkennbar beim Königsbauernspiel, das nach einem Peak bei ca. 900 Elo bis 2800 Elo stetig abnimmt. Das Damenbauernspiel (D00-D69) wird relativ konstant über alle Elo-Klassen gespielt während das sizilianische Spiel ab einer Elo von 1000 deutlich zunimmt. Irreguläre Eröffnungen (A00) oder auch die irregulären Königsbauernspiele (B00-B05) sind in den unteren Elo-Klassen (<1000) häufiger zu finden als in den oberen Klassen. Es wird auch deutlich, das insgesamt einfach mehr unterschiedliche Eröffnungen gespielt werden, desto stärker die Spieler sind. Indian Defense gewinnt zum Beispiel ab einem Elo von über 2000 relativ starke Bedeutung und Reti bekommt ab 2500 einen relativ gesehen starken Zuwachs.

Ab einer Elozahl von etwa 3000 ist die Spielermenge so gering, dass die Verteilung auch von den Präferenzen einzelner Spieler beeinflusst wird und so nicht mehr wirklich als allgemeine Aussagen zu halten sind. Zur Verdeutlichung: Zum Zeitpunkt dieses Artikels (16.02.2021) existieren nur 4 Spieler in Lichess, welche eine Elo über 3000 besitzen.

Häufigkeit von Eröffnungen per Time-Control

Nach Zeitkontrolle untergliederte Häufigkeit der Eröffnungen in Schach. Größte Unterschiede liegen in weniger gespielten Königsbauernspielen im Bullet.
Häufigkeit von Eröffnungen per Time-Control

Zwischen Blitz und Classic Partien gibt es eigentlich kaum Unterschiede in der Verteilung von Eröffnungen. In Bullet werden deutlich mehr irreguläre Spiele (zum Beispiel A00, A40-A42) gespielt, was vor allem auf Kosten des Königsbauernspiel geht.

In unseren Daten schlummern noch viele weitere spannende Erkenntnisse

Die Beliebtheit einer Eröffnung ist interessant – aber was wirklich zählt ist nicht, wie oft eine Eröffnung gespielt wird, sondern wie erfolgreich sie gespielt wird. Auch dies haben wir genau unter die Lupe genommen und laden euch ein in unserem nächsten Blog-Eintrag zu diesem Thema mehr zu lesen – stay tuned!

Als kleiner Teaser seht ihr einmal die erfolgreichsten fünf ECO Codes für den weißen Spieler.

Die Eröffnungen (ECO Codes) mit der höchsten Gewinnchance für Weiß.
Erfolgreichste ECO Codes für Weiß

Auch beleuchten wir in einer unseren späteren Beiträgen die Besonderheiten von einzelnen Stellungen. Welche Stellung ist zum Beispiel nach dem 10. Zug von Weiß am häufigsten auf dem Brett? Es handelt sich um folgende Stellung, welche aus der Caro-Kann Verteidigung heraus entsteht:

Sie sehen gerade einen Platzhalterinhalt von Standard. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Wie komplex das Schachspiel ist, ziegt dabei auch auf, dass diese häufigste Stellung nach 10 Zügen trotzdem nur in etwa 0,02% aller Partien, also statistisch etwa in jeder 5.000ten Partie vorkommt. Außerdem interessant: mit einem durchschnittlichen Ergebnis von 0.644 Punkten pro Spiel (0.5 steht für eine gleiche Gewinnchance für schwarz & weiß) ist diese Partie in der Praxis über alle Spielstärken gemittelt signifikant besser für weiß.