AlphaZero
外觀
AlphaZero是 DeepMind 所開發的人工智慧軟體。
簡介
AlphaZero 使用佮 AlphaGo Zero 類似但是閣較一般性的演算法,咧無做傷濟改變的前提落,並且演算法對圍棋延伸到將棋佮西洋棋上。AlphaZero 佮 AlphaGo Zero 無仝的所在佇咧:
- AlphaZero 的超參數是寫死的。
- AlphaZero 這馬會斷更新人工神經網路。
- 圍棋佇咧某一寡狀況是對稱抑是會當轉踅的,AlphaGo Zero 的程式利用這個特性降低計算複雜性,AlphaZero 因為延伸到將棋佮西洋棋伊是提掉這段程式。
- 西洋棋有已經知影佮局終局資料庫,所以乎 AlphaZero 利用這个終局的資料庫納入計算。
佮 Stockfish 以及 elmo 的較
AlphaZero 是無蒙特卡洛樹搜揣,每秒只會當揣八萬步(西洋棋)與四萬步(將棋), 比較起來 Stockfish 每秒會當七千萬步,以及 elmo 每秒會當三千五百萬步,AlphaZero 是利用類神經網路提昇矣搜揣的品質。
訓練
AlphaZero 使用五 , 空粒第一代的 TPU 進行訓練。
成績
西洋棋
佇四點鐘的訓練了後(大約自我訓練四千四百萬局), AlphaZero 用二十八勝七十二佮空敗的成績拍敗 Stockfish。
將棋
你若十二點鐘的訓練了後(大約是自我訓練兩千四百萬局), AlphaZero 以九十勝二佮八敗的成績拍敗 elmo。
圍棋
佇咧三十四點鐘的訓練了後(大約是自我訓練兩千一百萬局), AlphaZero 以六十勝四十敗的成績拍敗 AlphaGo Zero。
相關連結
- AlphaGo Zero
- DeepMind
- ELF OpenGo
- KataGo
參考資料
外部連結
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm,AlphaZero 的論文。
- Game Downloads,AlphaZero 佮西洋棋軟體 Stockfish 的對弈記錄。
- Chess . com Youtube playlist for AlphaZero vs . Stockfish