跳至內容

AlphaGo

出自Taiwan Tongues 台語維基
這是此頁批准,以及是最近的修訂。

AlphaGo(「 Go」為日文「ua-sá-bih」字發音轉寫,是圍棋的西方的名稱), 直譯為講阿爾法圍棋,亦去予音譯做阿爾法狗阿法狗阿發狗等,是佇二空一四年開始由英國倫敦 Google DeepMind 開發的人工智慧圍棋軟體。二空一七年乎,關於著 AlphaGo 的電影紀錄片《AlphaGo 世紀對決》正式搬出來。

專業術語來講,AlphaGo 的做法是使用蒙地卡羅樹搜揣佮兩个深度神經網路相結合的方法,一个是以藉助估值網路(value network)來評估大量的選項,一个是藉助行棋網路(policy network)來選擇落子,閣使用強化學習進一步共改善。佇這種設計下,電腦會當結合樹狀圖的長遠推斷,閣會當像人類的大腦仝款自發學習進行直覺訓練,以提懸行棋實力。

歷史

一般認為講,電腦欲佇咧圍棋中取勝比佇咧西洋棋等等的遊戲中取勝欲困難得多,因為圍棋的行棋點足濟的,分支因為其他的遊戲,而且逐改落子對象勢的好歹飄忽不定,諸如暴力搜揣法、Alpha-beta 鉸枝、啟發式搜揣的傳統人工智慧方法佇咧圍棋中真歹奏效。佇一九九七年 IBM 的電腦「深藍」擊敗俄籍世界西洋棋冠軍加里 ・ 卡斯帕羅夫了後,經過一八冬的發展,棋力上懸的人工智慧圍棋程式才大約有達到五段圍棋士的水準,而且佇無欲予囝的狀況之下,猶原無法度擊敗職業棋士。二空一二年,佇咧四台 PC 最執行的 Zen 程式佇予五子佮予四子的情況後兩擺激敗日籍九段棋士武宮正樹。二空一三年,Crazy Stone 佇予四子的情形下擊敗日籍九段棋士石田芳夫,按呢三不五時出現的戰果就已經是難得的結果矣。

AlphaGo 的研究計劃佇二空一四年啟動,此後佮進前的圍棋程式相比表現出顯提升。咧佮 Crazy Stone 和 Zen 等其他圍棋程式的五百局比賽中,單機版 AlphaGo(執行佇咧一台電腦)干焦輸一局。若佇咧其他的對局內,分散式版 AlphaGo(以分散式運算執行佇濟台電腦)佇五百局比賽中全部獲勝,而且對抗運行佇咧單機頂頭的 AlphaGo 大約有百分之七十七的勝率。二空一五年十月的分散式運算版本 AlphaGo 使用矣一 , 兩百空二箍 CPU 佮一百七十六箍 GPU。

  • 二空一五年十月,AlphaGo 拍敗假影,成做第一个毋免予子即可佇十九路棋盤上擊敗圍棋職業棋士的電腦圍棋程式,落去彼个歷史,並且二空一六年一月發表佇咧知名期刊《自然》。
  • 二空一六年三月,透過自我對弈數以萬計盤進行練習強化,AlphaGo 佇一場五番棋比賽四界 : 一擊敗頂尖職業棋士李世馮,成做第一个無對同予子而擊敗圍棋職業九段棋士的電腦圍棋程式,𫞼下了路站碑。五局賽了後韓國棋院授予 AlphaGo 有史以來第一位名譽職業九段。
  • 二空一六年七月十八,因柯潔彼段時間狀態無好,其在 Go Ratings 網站頂懸的 WHR 等級分下滑,AlphaGo 得以佇咧 Go Ratings 網站的排名中位列世界第一,但是幾若工以後,柯潔便閣反超起來 AlphaGo。二空一七年二月初,Go Ratings 網站刪除了 AlphaGo、DeepZenGo 等圍棋人工智慧佇咧網站頂懸的所有資訊。
  • 二空一六年十二月二九到二空一七年一月初四,閣再強化的 AlphaGo 以「Master」為數號名,佇咧無公開其實身份的狀況之下,藉非正式的網路快棋對戰進行測試,挑戰中韓日台的一流高手,測試了的時六十戰全勝。
  • 二空一七年五月二十三至二七佇烏鎮圍棋峰會上,上新的強化版 AlphaGo 佮世界第一棋士柯潔比試、閣配合八段棋士協同作戰佮對決五个頂尖九段棋士等五場比賽,取得三比零全勝的戰績,團隊戰和組隊戰也全勝,這改 AlphaGo 利用 GoogleTPU 執行,加上快速進化的機器學習法,運算資源消磨干焦李世馮版本的十分之一。佇咧和柯潔的比賽了後,中國圍棋協會授予 AlphaGo 職業圍棋九段的稱號。

AlphaGo 佇咧無人類對手了後,AlphaGo 之父傑米斯 ・ 哈薩比斯宣布 AlphaGo 退伍。啊若對業餘棋士的水平到世界第一,AlphaGo 的棋力取得按呢的進步,干焦開兩年左右。

最終版本 AlphaZero 有閣較強大的學習能力,會當自我學習,佇二十一工達到較贏過中國頂尖棋士柯潔的 Alpha Go Master 的水平。

相戰

deepmind 名義

二空一四年起,AlphaGo 以英國棋友 deepmind 的名義開始佇弈城圍棋網頂對弈。deepmind 佇咧二空一四年四月到二空一五年九月長到一冬半的時間內底,維持在七 D 到八 D 之間,攏總行三百幾盤棋。二空一五年九月十六日頭一擺升上九 D,了後佇 AlphaGo 佮跋筊對前後的三個月內無進行網路對弈。二空一五年十二月到二空一六年二月,deepmind 攏總下一百三十六盤,基本咧九 D 水平。其中和職業棋士濟改對局互相有贏面。

傑佇咧 AlphaGo 佮李世交九段比賽進前捌否認 deepmind 是 AlphaGo 試數號,猶毋過佇咧 AlphaGo 佮李世交比賽以後,DeepMind 創始人哈薩比斯承認 AlphaGo 捌使用 deepmind 數號進行過測試。

二空一六年十二月十六,佇咧 AlphaGo 以 Master 身份登入弈城圍棋網進前,傑要求刪除 deepmind 數號。這馬乎 deepmind 的戰績佮棋譜已經無法度查閱。

鋪排

二空一五年十月,分散式版 AlphaGo 分先用五 : 空擊敗了歐洲圍棋冠軍華裔法籍職業棋士抹著二段。這是電腦圍棋程式第一改佇咧十九路棋盤閣分先的情形之下拍敗職業圍棋士。新聞發布予人捒遲到二空一六年一月二七,佮描述演算法的論文鬥陣來發布,而論文發表佇咧《自然》上。

李世陵

二空一六年三月,AlphaGo 挑戰世界冠軍韓國職業棋士李世馮(이세돌)九段。AlphaGo 使用 Google 佇美國的雲端運算侍服器,並通過光纜網路連接著韓國。比賽的所在為韓國首爾四季酒店;賽制為五番棋,分別於二空一六年三月九號、十號、十二號、十三佮十五號進行;規則是中國圍棋規則,烏棋貼三閣四分之三子;用的時陣為逐家兩點鐘,三改一分鐘讀秒鐘。DeepMind 團隊佇 YouTube 上全球直播並且由美籍職業棋士邁克 ・ 雷蒙(Michael Redmond)九段擔任英語解說,抑若中國大陸足濟影片的網站嘛採用 YouTube 的直播訊號進行直播,並且加上家己的解說。DeepMind 團隊成員台灣業餘六段圍棋士黃士傑博士代表 AlphaGo 佇棋盤懸頂咧落子。

比賽得著勝者將提著一百萬美金的獎金。若是 AlphaGo 獲勝,獎金將捐贈予圍棋組織佮慈善機構,包括聯合國兒童基金會。李世馮有十五萬美金的出場費,而且每贏一盤棋會閣著兩萬美金。

二空一六年三月九號、十號佮十二號的三局對戰均為 AlphaGo 獲勝,十三的對戰是李世得著勝,十五號的最終局是閣是 AlphaGo 獲勝。因此對弈結果做 AlphaGo 四 : 一戰勝矣李世馮。這改比賽佇網路頂懸引發著人對這改比賽佮人工智慧的講法討論。

Master 名義

二空一六年十一月初七,鋪排佇咧微博頂懸表示 AlphaGo 的實力真大增,將佇咧二空一七年初進行閣較濟比賽。DeepMind 創辦人傑米斯 ・ 哈薩比斯隨後證實此訊息。毋過並無公佈細節。

二空一六年十二月二九暗時七點起,中國的跋筊城圍棋網出現疑似人工智慧圍棋軟體的圍棋高手,數號名做「Magister」(中國大陸客戶捀顯示講「Magist」), 後閣改名做「Master」。 二空一七年一月初一暗時十一點 Master 轉戰到騰訊旗下的野狐圍棋網。Master 以其空前的實力轟動著圍棋界。伊以逐工十盤的速度佇咧弈城、野狐等網路圍棋對戰平台挑戰中韓日台頂尖高手,到二空一七年一月初四公測煞為止六十戰全勝,其中弈城三十戰野狐三十戰,戰勝矣柯潔、朴廷桓、井山裕太、鋪嘉熹、昱廷、時間愈、陳耀鴻、李欽誠、古力、定昊昊、唐韋星、范廷鈺、周睿羊、江維傑、黨毅飛、周俊勳、金志錫、姜東潤、朴永訓、元晟養等等世界冠軍棋士,連笑、檀哪會、孟泰齡、黃雲嵩、楊鼎新、辜梓豪、申真響、趙漢乘、安成浚等中國抑是韓國國內冠軍抑是世界亞軍棋士,猶閣有世界女子第一人佇之瑩。期間古力捌懸賞人民幣十萬箍予第一位戰勝 Master 者。

Master 所進行的六十戰基本攏是三遍二十秒抑是三十秒讀秒的快棋,干焦佇咧和鋪衛平交戰的時陣考慮著四老大年紀台愛延長做一分鐘,而且賽後閣以繁體中文拍起來「多謝允老師」五字。該數號佇五十九連勝後稱「我是 AlphaGo 的黃博士」,顯明 Master 就是講 AlphaGo,代為落子的是 AlphaGo 團隊的成員對台灣來的黃士傑博士;DeepMind 創始人之一傑米斯 ・ 哈薩比斯於比賽結束了後佇咧其推特上表示「阮真期待佇今後(二空一七年乎)佮圍棋組織佮專家合作,佇官方比賽中行幾盤」,黃士傑佮又閣分別佇咧 Facebook 佮微博頂頭發表官方中文譯文,表示對各國頂尖棋士參與 AlphaGo 網路公測的感謝。二空一七年一月初五暗,中國中央電視台《新聞聯播》以「人工智慧『阿爾法狗』橫掃圍棋高手」為題報導最近火爆的 Master 網路咧欲棋六十連勝人類的高手的事件,新聞閣講著,「 這遍事件為紲落來的人機著決做出了真好的預熱」。

因為人類棋士佇慢棋中有愈久的思考時間,所以雖然講 AlphaGo 佇網路快棋中大獲全勝,毋過猶是袂當斷言其實佇官方慢棋比賽中𪜶嘛是會有遮爾仔濟出色的表現。猶毋過職業棋士著 AlphaGo 佮人類特別的獨特棋風閣懸超過的棋力印象誠深,柯潔佇咧其微博中表示「感謝 Alphago 上新版予咱棋界帶來的震撼」,並「有遺憾」地稱「若毋是蹛病院,我共用起來彼攢一禮拜的上尾仔一步」。

中國烏鎮圍棋峰會

二空一六年六月四號,佇第三十七屆世界業餘圍棋錦標賽新聞發布會上,國際圍棋聯盟事務總長楊俊安透露今年內 AlphaGo 抑是會挑戰中國職業棋士柯潔九段。猶毋過 DeepMind 創辦人傑米斯 ・ 哈薩比斯表示目前猶未確定 AlphaGo 的後一步計畫,一旦有明確的安排,會有官方聲明。

二空一六年十二月初八,第二十一屆三星佮車險盃世界圍棋大師賽決賽了後,柯潔九段表示:「 目前棋士之間的比賽真濟,我放棄矣佮 DeepZenGo 的著局。我感覺講,我這馬的狀態猶閣袂使拍敗『阿爾法狗』(AlphaGo), 今後需要閣較拍拚。」

二空一七年四月十號,中國圍棋協會、Google 佮浙江省體育局聯合佇中國棋院召開新聞發佈會,宣佈以柯潔為首的中國棋士將和 AlphaGo 佇五月二十三號到二七號的中國烏鎮圍棋峰會上對弈。這改對弈分做三場比賽,首先佇五月二三、二十五佮二七這三工,柯潔就欲佮 AlphaGo 落三番棋,用時為每一方三點鐘,五改一分鐘讀秒。Google DeepMind 為本改柯潔佮 AlphaGo 的三局比賽提供了一百五十萬美金的勝者獎金,同齊柯潔有三十萬美金的出場費。另外佇五月二六,時間愈、昱廷、唐韋星、陳耀存佮周睿羊五人欲進行團隊比賽,𪜶共聯合佮 AlphaGo 著弈,用的時為逐家二點鐘三十分鐘,三改一分鐘讀秒鐘。仝日,古力、連笑閣將 AlphaGo 合作進行人機配對賽,比賽將以棋士佮 AlphaGo 合作的形式進行,用的時陣為每一點鐘,一改一分鐘讀秒。終其尾,AlphaGo 以三:零戰勝柯潔,閣去予中國圍棋協會授予職業圍棋九段稱號,毋過鋪衛平九段稱呼伊的水平「至少二十段」。 咧結束和柯潔的比賽了後,Deepmind 宣佈 AlphaGo 將「退伍」,無閣參加任何圍棋比賽,但共公開 AlphaGo 家己佮家己互弈的棋譜;佇咧未來 Deepmind 將會共 AlphaGo 的技術運用著醫療等閣較廣泛的領域。

AlphaGo Zero

AlphaGo 的團隊佇二空一七年十月十九《自然》雜誌頂頭發表一篇文章,介紹了 AlphaGo Zero,這是一个無用著人類資料的版本,比以早任何拍敗人類的版本攏愛強大。迵過佮家己相戰,AlphaGo Zero 經過三工的學習,以一百 : 零的成績超越 AlphaGo Lee 的實力,二十一工以後達到矣 AlphaGo Master 的水平,並佇咧四十工內底超過矣所有進前的版本。

版本

組態佮效能

二空一五年十月前後的測試,AlphaGo 濟改咧使用無仝數目的 CPU 和 GPU,以單機抑是講分散式模式執行。每一步棋有兩秒的思考時間。終其尾 Elo 級分如下表:

毋過 AlphaGo 的棋力不斷會當顯示增加。就按呢上表並袂當代表 AlphaGo 其他的版本的棋力。

啊若佇咧 AlphaGo Zero 發佈了後,Deepmind 表示新的演算法令新版的 AlphaGo 比舊版的能量大幅下降一點胭至四扣 TDP,效能大幅提升。

組態佮棋力

佇二空一六年一月二七,Research at Google 發佈了有關新版 AlphaGo 佮其他的圍棋軟體,閣有板二段的對比如下:

佇二空一七年五月二四,DeepMind 團隊正式佇烏鎮圍棋峰會上,所使用的 AlphaGo 版本啦是 Master,閣公布矣 AlphaGo 捌公開對弈過的版本佮其他的圍棋軟體較的圖表。其中,新版的 AlphaGo Master 會當予 AlphaGo Lee(佮李世交接戰爭的版本)三子。兩个版本的 AlphaGo 自我生成的 Elo 等級分別佇四千七百五十佮三千七百五十分附近,和柯潔九段佇五月二三的三千六百二十分(非官方排名系統所統計的)相差差不多一百三十到一千一百三十分之外。毋過,職業棋士鼻芳二段替 AlphaGo 團隊的首席研究員大衛 ・ 席爾瓦澄清:「 當 AlphaGo 佮無對弈過的人類棋士對局的時陣,按呢的優勢就不復存在囉,尤其是柯潔這種的圍棋大師,伊可能幫助阮發現 AlphaGo 無捌展露的新弱點」。

演算法

AlphaGo 使用蒙地的卡羅樹搜揣(Monte Carlo tree search), 估助估值網路(value network)佮行棋網路(policy network)這兩款深度神經網路,通過估值網路來評估大量選一寡,並通過行棋網路選擇落點。AlphaGo 頭仔通過模仿人類𨑨迌厝,來試匹配的職業棋士的過去棋局,其資料庫當中大約有三千萬步棋牢咧。後來伊達到一定的熟練程度,伊開始佮家己對弈大量的棋局,使用強化學習進一步共改善。圍棋無法度干焦通過走揣最佳棋步來解決;遊戲一盤平均大約有一百五十步,每一步平均大約有兩百種可選的下法,這意味有傷濟需要解決的可能性。

表現評價

圍棋職業九段棋士金明完稱 AlphaGo 佇和瑛的對戰中,表現得「像人類仝款」。 棋局裁判托比 ・ 曼寧認為 AlphaGo 的棋風「保守」。

啊若李世致佇中國烏鎮圍棋峰會了後表示,AlphaGo 的發揮非常穩定,表現完美,愛欲揣著戰勝伊的機會袂當傷穩穩,「 著愛愈亂愈好,難點愈濟愈好」。 另外咧,柯潔佇賽後復盤表示,AlphaGo 會當非常有效率地利用場上的棋子,咧行的棋子攏佮場面的棋子有連貫佮配合,而且對棋子的厚薄有獨特的理解,會當共一寡人類認為厚的棋子予打擊佮拍花。[一]

反應

AlphaGo 予人呵咾做人工智慧研究的一項標誌性進展,佇咧這進前,圍棋一直是機器學習領域的難題,甚至予人認為是當代技術力所不及的範圍。鋪排去的棋局裁判托比 ・ 曼寧佮國際圍棋聯盟的秘書長李夏辰攏認為講將來圍棋士會藉助電腦來提升棋藝,對錯誤中學習。

台灣大學電機系教授于天立認為,Google 會當成功結合深度神經網路、加強式學習佮蒙地卡羅樹狀撨揣三款演算法,其實成果值得討采。伊認為這種技術應該適用佇一般連續性決策問題。因為乎 AlphaGo 會當佇濟濟的決策內底,適當的分配運算資源來探索此一決策所帶來的好處佮䆀處,並且會當對探索中回饋修正錯誤。猶毋過于嘛講著,就算 AlphaGo 所使用的學習模型較有一般性,伊離真正完全通用的學習模型猶原有一段距離。

類似成果

  • Facebook 這嘛咧開發一套圍棋程式,號做 Darkforest。這套程式嘛是因為機器學習佮樹仔搜揣。佇二空一六年三月舉辦第九屆 UEC 杯世界電腦圍棋大會中得著亞軍。就算講這个程式佇其他的圍棋程式進前表現強勁,總是節甲二空一六年初,伊猶未擊敗任何職業棋士。
  • DeepZenGo 是日本程式設計師尾島陽兒、加藤英樹等等開發的圍棋程式,是佇舊版本的 Zen 圍棋軟體基礎加入深度學技術了後開發的新版本,由日本 DWANGO 公司、東京大學、日本棋院提供支援,其基本原理佮 AlphaGo 類似。佇第二屆圍棋電王戰中分先以一 : 二不敵趙治勳九段。佇二空一七年三月十八-十九號佇日本舉辦第十屆 UEC 杯世界電腦圍棋大會上得著亞軍。佇二空一七年三月二十一-二三的世界上強棋士決定戰頂以一勝二負的成績名列第三名。佇二空一七年三月二十六日的第五屆電聖戰頂分先戰勝日本的一力空七段。目前佇這馬 KGS、弈城、騰訊野狐等網路圍棋對弈平台上公測。
  • 絕藝(英文名 Fine Art)是中國騰訊公司的 AI Lab(騰訊人工智慧實驗室)開發的圍棋人工的智慧。佇二空一七年三月十八-十九號的第十屆 UEC 杯世界電腦圍棋大會上奪得冠軍,並佇二空一七年三月二十六日的第五屆電聖戰頂分先戰贏日本的一力空七段。目前佇騰訊野狐圍棋網路對弈平台上公測。
  • CGI 是由國立交通大學 CGI(Computer Games and Intelligence)實驗室所開發的圍棋人工智慧。佇咧二千空一十七首屆世界智慧型的圍棋公開賽八月十六佇內蒙古鴻爾多斯開戰,擊敗絕藝佮 DeepZenGo,初賽全勝;十七號總決賽中奪得亞軍。

參見

  • 圍棋佮數學
  • 深藍 ( 電腦 )
  • 華生 ( 人工智慧程式 )
  • 電腦圍棋

參考資料

外部連結

  • 官方網站
  • AlphaGo wiki at Sensei's Library , including links to AlphaGo games
  • AlphaGo page , with archive and games
  • Estimated 二千空一十七 rating of Alpha Go