Warning: Use of undefined constant USING_SEPARATE_MOBILE_VERSION - assumed 'USING_SEPARATE_MOBILE_VERSION' (this will throw an Error in a future version of PHP) in /www/htdocs/w013a356/bluebit.de/mods/core/classes/Main.class.php on line 9

Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /www/htdocs/w013a356/bluebit.de/mods/article/classes/InfoboxContainer.class.php on line 45
Google KI AlphaGo Zero spielt noch stärker
bluebit

Vom Anfänger zum Profi in drei Tagen

Google KI AlphaGo Zero spielt noch stärker

von Dennis Lenz •

Das Programm AlphaGo des Google Tocherunternehmens DeepMind hat im asiatischen Strategiespiel Go dieses Jahr die weltweit besten Profispieler besiegt. Die neue Version AlphaGo Zero spielt noch stärker ohne dabei auf menschliches Vorwissen zuzugreifen.


0 Kommentare

Die Erfolge des KI-Startups DeepMind im Strategiespiel Go deuteten darauf hin, dass das Thema vorerst beendet sei. Im Januar gewann die KI 60 Partien gegen menschliche Profis, der Weltmeister Ke Jie wurde im Mai geschlagen und auch ein Team bestehend aus fünf Top-Profis könnte im Mai nicht gegen die Software gewinnen. Zumindest auf eine wissenschaftliche Veröffentlichung konnten sich alle von künstlicher Intelligenz begeisterten Person aber noch freuen. Das auf der The Future of Go Summit angekündigte Paper wurde nun mit dem Titel "Mastering the game of Go without human knowledge" vom Forscherteam von Deepmind in der renommierten Wissenschaftszeitschrift Nature veröffentlicht. Kernthema des Papers ist aber nicht AlphaGo, das im Mai den Weltmeister besiegt hat, sondern die neue Version AlphaGo Zero.

Deepmind hat inzwischen vier Versionen von AlphaGo entwickelt. Die Grundlage aller KI-Versionen ist eine Kombination von neuronalen Netzen und der Monte Carlo Tree Search (MCTS) Baumsuchtechnik. Die ersten Versionen von AlphaGo erlernten das Spiel, indem die neuronalen Netze mehrere Millionen Spielsituationen menschlicher Profis analysierten. Die aktuelle Version AlphaGo Zero bekam keinerlei externe Spielzüge zur Verfügung gestellt. Sie musste Go von Null auf anhand der gegebenen Spielregeln selbst erlernen. Interne Tests zeigen, dass AlphaGo Zero die AlphaGo Version die den Weltmeister besiegt hat bereits schlagen kann. Partien gegen menschliche Profispieler sollte sie daher auch problemlos gewinnen können.

AlphaGo setzt auf eine Kombination zweier neuronaler Netze. Das Policy Network war für Vorschläge guter Züge verantwortlich während das Value Network die Stellungsbewertung übernahm. AlphaGo Zero hat beide Funktionen in einem neuronalen Netz vereint, das allerdings über zwei Ausgangspfade („Heads“) verfügt. AlphaGo Zero kann um den nächsten Zug zu bestimmen lediglich auf die aktuelle Stellung und die letzten acht Züge zurückgreifen. Die in den vorherigen Versionen vorhandene Vorverarbeitung, die den neuronalen Netzen der Vorgänger noch geholfen haben, sind nicht mehr implementiert.

Auch der Baumsuche-Algorithmus wurde abgeschwächt. In der aktuellen Version wächst der Spielbaum nur noch unter der Ägide des neuronalen Netzes. Partien werden nun nicht mehr mit stark simplifizierten Strategien beendet. Das MCTS unterstützt AlphaGO Zero also nur noch als Strategieverstärker dadurch, dass es Varianten erlaubter Spielzüge simuliert. Durch den Ausgang der simulierten Spielzüge erhält das neuronale Netz Informationen über die verschiedenen Stellungen.

Während des Programm eine gigantische Anzahl von Spielen gegen sich selbst absolvierte, lernte das neuronale Netz und verbesserte so ständig seine Strategie. Die Zugvorschläge näherten sich immer mehr den Resultaten der Baumsuche an und spätere Baumsuchen konnten so direkt auf bessere Strategien zugreifen. Auch die Stellungsbewertung glich sich mit der Zeit den Ergebnissen der Simulationen an.

Zum Profi in nur drei Tagen

Die KI von AlphaGo Zero schaffte es so innerhalb von nur drei Tagen von vollkommen zufälligen Spielzügen eine Spielstärke zu erreichen, die jeden menschlichen Spieler übertrifft. Nach drei Wochen erreichte sie das Level der aktuellen „Master“-Version und nach 40 Tagen war sie bereits wesentlich besser.

Dank des von Google für neuronale Netze entwickelten Spezialchips TPU (Tensor Processing Unit) kommt AlphaGo Zero mit deutlich weniger Hardware aus als die Vorgänger. Die aktuelle Version benötigt lediglich 4 TPUs, was im Vergleich zu den über 1000 CPU-Kernen und 176 GPUs der ersten Version sehr genügsam ist.

In Zukunft ist es wahrscheinlich, dass die neuen Erkenntnisse auf andere vergleichbare Spiele übertragen werden können. Das eigentliche Ziel von DeepMind ist allerdings reale Probleme mit künstlicher Intelligenz zu lösen. Es könnte also möglich sein, dass in Zukunft die anhand des Spiels Go gewonnenen Erkenntnisse auf neue Einsatzbereiche wie zum Beispiel die Medizin übertragen werden.

0 Kommentare

Kommentar verfassen