台大教授:「戰勝自己」對AlphaGo而言,不只是口號

2016.03.16

by 林守德(台灣大學資訊工程學系 / 資訊網路與多媒體研究所 教授) (Web only)

台大教授:「戰勝自己」對AlphaGo而言,不只是口號

翻攝自Google DeepMind官網

  • A-
  • A+

世界圍棋棋王李世乭和電腦AlphaGo的「人機大戰」引起舉世關注,台大資工系教授林守德分析:跟 AlphaGo學習「如何學」,或許是這場大戰中觀察到的不一樣的收獲。

我對圍棋一竅不通,過去也對AI-Game沒有特別研究,拜近日來AlphaGo重創人類在圍棋上領先的地位之賜,特別把這篇《Nature》上的論文拿來看了一下。

這是一篇非常有趣的論文,摘錄心得如下:

1. AlphaGo 決策過程跟過去的棋類程式不大一樣。它裡面每一個stage單獨的方法都是不是新的創見,只是它組合這些方法的framework很特別。它的learning結果(不管是DNN或是RL)都只是中間產物,最後用來幫助搜尋最好的棋步。

2. 它的learning分三個階段,第一個階段「天下棋手為我師」,它主要希望建構一個13層的DNN來學「圍棋專家」的棋步(policy),也就是根據這個盤面預測過去歷史資料中大家會怎麼下。第一階段訓練出來的SL系統就可以下棋,但是結果不是很好,因為其實就只是個模仿專家的系統。

3. 而第二階段「超越過去的自己」是一個Reinforcement Learning的系統,藉由跟過去的自己對戰來refine第一階段學到的policy,而且需要跟過去不同版本的對手對戰avoid overfitting。在這個RL的階段,才首度把勝負當成reward在訓練model。第二階段訓練出來的policy已經有85%的機會贏過state-of-the-art 二段的程式。

關鍵字:

親子品牌館

熱門消息

你可能有興趣的文章

由popin提供

我要留言

謝謝您的填寫!
您目前有310 親子幣
可免費閱讀31篇雜誌文章!
回首頁
觀看我的點數
轉寄好友
留言檢舉
請問專家問題檢舉

您的發問已送出,專家會盡快回答,感謝您耐心等候。我們會寄發通知email;或請您時常登入會員區,確認專家是否回答了唷!


請您為這次的「發問流程」評分?

目前問題的「分類」,您覺得:

送出

您想刪除發問的原因是?

已經知道答案
透露個人資訊
不想問了
其他原因
刪除問題

2018 MAKER PARTY 開展倒數24小時!


本日最推薦:

<<會員專屬優惠>>點此連結,下載存圖至MAKER_PARTY現場購票享有200元優惠價。

2018 MAKER PARTY即將來臨,準備好了嗎?不緊張,立即下載,圖文攻略懶人包,活動訊息一把抓。


溫馨提醒:已經購買電子票券或是預約工作坊的讀者,票劵與行前通知已經寄出囉!先收信,做好準備,不慌不忙與孩子共學共玩一整天!


不要再顯示

網頁已閒置超過3分鐘,為您推薦其他熱門好文!或點擊空白處回到網頁