台大教授:「戰勝自己」對AlphaGo而言,不只是口號

2016-03-16
加入書籤
立即分享
  • 轉寄
  • 列印

世界圍棋棋王李世乭和電腦AlphaGo的「人機大戰」引起舉世關注,台大資工系教授林守德分析:跟 AlphaGo學習「如何學」,或許是這場大戰中觀察到的不一樣的收獲。

台大教授:「戰勝自己」對AlphaGo而言,不只是口號
翻攝自Google DeepMind官網

我對圍棋一竅不通,過去也對AI-Game沒有特別研究,拜近日來AlphaGo重創人類在圍棋上領先的地位之賜,特別把這篇《Nature》上的論文拿來看了一下。

這是一篇非常有趣的論文,摘錄心得如下:

1. AlphaGo 決策過程跟過去的棋類程式不大一樣。它裡面每一個stage單獨的方法都是不是新的創見,只是它組合這些方法的framework很特別。它的learning結果(不管是DNN或是RL)都只是中間產物,最後用來幫助搜尋最好的棋步。

2. 它的learning分三個階段,第一個階段「天下棋手為我師」,它主要希望建構一個13層的DNN來學「圍棋專家」的棋步(policy),也就是根據這個盤面預測過去歷史資料中大家會怎麼下。第一階段訓練出來的SL系統就可以下棋,但是結果不是很好,因為其實就只是個模仿專家的系統。

3. 而第二階段「超越過去的自己」是一個Reinforcement Learning的系統,藉由跟過去的自己對戰來refine第一階段學到的policy,而且需要跟過去不同版本的對手對戰avoid overfitting。在這個RL的階段,才首度把勝負當成reward在訓練model。第二階段訓練出來的policy已經有85%的機會贏過state-of-the-art 二段的程式。

加入書籤
立即分享
  • 轉寄
  • 列印
 
想嘗試
100%
很實用
 
很感動
 
做不到
 
很困惑
 
不同意

分享你的經驗和想法,留言就送親子幣喔!

NEW!試試看最新的親子貼圖

  • 讚
  • 謝謝謝謝
  • 大推大推
  • 借分享借分享
  • 啾咪啾咪
  • 有啟發有啟發
  • 苦惱苦惱
  • 哭哭哭哭
  • 感謝感謝
7則留言
  • Gi Shawn 2017-01-10
    Thank you~~~~~
    回覆 • 
    檢舉
  • Vickie Chiou 2016-08-25
    很實用的文章!!!!!
    回覆 • 
    檢舉
  • emily g 2016-04-01
    真是很棒的文章,非常值得分享
    回覆 • 
    檢舉
訂閱親子天下電子報
熱門消息
+ 更多
專欄
  • + 追蹤
    教育觀察工作者
    甘平治
  • + 追蹤
    暢銷作家
    張曼娟
  • + 追蹤
    知名部落客
    Selena
  • + 追蹤
    親職溝通作家
    羅怡君
  • + 追蹤
    臨床心理師
    張黛眉
  • + 追蹤
    暢銷作家
    王溢嘉
+ 更多
醫生/專家
  • + 追蹤
    臨床心理師
    鍾世明
  • + 追蹤
    情緒教育
    邱鏛玉
  • + 追蹤
    血液腫瘤科
    陳世翔
  • + 追蹤
    皮膚科
    施一新
  • + 追蹤
    諮商心理師
    陳奕安
  • + 追蹤
    復健科
    陳嘉玲
謝謝您的填寫!
您目前有310 親子幣
可免費閱讀31篇雜誌文章!
回首頁
觀看我的點數
轉寄好友
留言檢舉
請問專家問題檢舉

您的發問已送出,專家會盡快回答,感謝您耐心等候。我們會寄發通知email;或請您時常登入會員區,確認專家是否回答了唷!


請您為這次的「發問流程」評分?

目前問題的「分類」,您覺得:

送出

您想刪除發問的原因是?

已經知道答案
透露個人資訊
不想問了
其他原因
刪除問題