跳至內容

AlphaZero

出自Taiwan Tongues 台語維基
於 2025年8月22日 (五) 11:05 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

AlphaZero是 DeepMind 所開發的人工智慧軟體。

簡介

AlphaZero 使用佮 AlphaGo Zero 類似但是閣較一般性的演算法,咧無做傷濟改變的前提落,並且演算法對圍棋延伸到將棋佮西洋棋上。AlphaZero 佮 AlphaGo Zero 無仝的所在佇咧:

  • AlphaZero 的超參數是寫死的。
  • AlphaZero 這馬會斷更新人工神經網路。
  • 圍棋佇咧某一寡狀況是對稱抑是會當轉踅的,AlphaGo Zero 的程式利用這個特性降低計算複雜性,AlphaZero 因為延伸到將棋佮西洋棋伊是提掉這段程式。
  • 西洋棋有已經知影佮局終局資料庫,所以乎 AlphaZero 利用這个終局的資料庫納入計算。

佮 Stockfish 以及 elmo 的較

AlphaZero 是無蒙特卡洛樹搜揣,每秒只會當揣八萬步(西洋棋)與四萬步(將棋), 比較起來 Stockfish 每秒會當七千萬步,以及 elmo 每秒會當三千五百萬步,AlphaZero 是利用類神經網路提昇矣搜揣的品質。

訓練

AlphaZero 使用五 , 空粒第一代的 TPU 進行訓練。

成績

西洋棋

佇四點鐘的訓練了後(大約自我訓練四千四百萬局), AlphaZero 用二十八勝七十二佮空敗的成績拍敗 Stockfish。

將棋

你若十二點鐘的訓練了後(大約是自我訓練兩千四百萬局), AlphaZero 以九十勝二佮八敗的成績拍敗 elmo。

圍棋

佇咧三十四點鐘的訓練了後(大約是自我訓練兩千一百萬局), AlphaZero 以六十勝四十敗的成績拍敗 AlphaGo Zero。

相關連結

  • AlphaGo Zero
  • DeepMind
  • ELF OpenGo
  • KataGo

參考資料

外部連結

  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm,AlphaZero 的論文。
  • Game Downloads,AlphaZero 佮西洋棋軟體 Stockfish 的對弈記錄。
  • Chess . com Youtube playlist for AlphaZero vs . Stockfish