UI program AlphaZero a shogi

5.12.2017

V roce 2016 nastal velký milník pro umělou inteligenci. V té době porazil program AlphaGo (vyvinutý týmem DeepMind, který spadá pod Google) nejlepšího hráče ve hře go. Umělá inteligence AlphaGo se učila na datech hraných her člověkem.

Později DeepMind představili ještě lepší verzi s názvem AlphaGo Zero, která se už neučila na vstupních datech a zkušenostech z lidských her, ale zdokonalovala se pouze sebe učením. Posledním vývojovým stupněm se stal program AlphaZero. Z tohoto pohledu je AlphaZero nejzajímavější, protože se program neučil jen go, ale také klasický šach a shogi. Všech hrách je poslední verze programu bezkonkurenční a nemá rovného protihráče.

DeepMind založil tři instance AlphaZero, pro každou hru zvlášť. Výsledky jsou užasné, AlphaZero na začátku znalo jen pravidla her, zkušenosti sbíralo až hraním proti sobě samé.

grafy ukazují za jaký čas svého samoučení AlphZero začalo porážet dosavadní špičkové programy – Zdroj: https://twitter.com/juhamehtonen

Jak je vidět, tak ve hře go původní AlphaGo porazila nová UI po 165 tisíc krocích učení (po 8 hodinách reálného času). Ve hře go je počet kombinací zhruba 10^800.

U klasického šachu ji trvalo 300 tisíc průchodů učení (po 4 hodinách reálného času) než porazila poprvé Stockfish, který do teď byl nejlepším šachovým programem. Z grafu je krásně vidět, že šachy kombinatorikou dosáhli svého limitu. V klasickém šachu se kombinace všech možných partií pohybuje kolem hodnoty 10^123.

U shogi je to o něco zajímavější. V Shogi poprvé UI porazila člověka v roce 2010. Ale až teď AlphaZero dokázalo porazit program Elmo, který byl doposud nejsilnější. Oproti klasickému šachu AlphaZero dokázala porazit Elmo už při 110 000 krocích učení (což jsou necelé 2 hodiny). Z grafu je patrné, že shogi jsou daleko komplexnější než klasické šachy a program Elmo měl tak ve hře své limity. Možný počet kombinací u hry Shogi dosahuje hodnoty 10^224.

Plně vytrénované AlphaZero pak nastoupilo ve 100 hrách proti zmíněným nejlepším dosavadním programům v oboru.

V klasickém šachu nad Stockfishem vyhrálo 28×, remizovalo 72× a ani jednou neprohrálo. Oproti tomu v shogi, v kterém se málokdy vidí remízy, AlphaZero proti Elmu vyhrálo 90×, 2× remizovalo a 8× prohrálo.

Bilance AlphaZero po 100 hrách – Zdroj sohu.com

Zdroj: https://arxiv.org/abs/1712.018155

Žádné komentáře

Komentáře nejsou povoleny.