台大教授:「戰勝自己」對AlphaGo而言,不只是口號

2016-03-16
加入書籤
立即分享
  • 轉寄
  • 列印

世界圍棋棋王李世乭和電腦AlphaGo的「人機大戰」引起舉世關注,台大資工系教授林守德分析:跟 AlphaGo學習「如何學」,或許是這場大戰中觀察到的不一樣的收獲。

台大教授:「戰勝自己」對AlphaGo而言,不只是口號
翻攝自Google DeepMind官網

我對圍棋一竅不通,過去也對AI-Game沒有特別研究,拜近日來AlphaGo重創人類在圍棋上領先的地位之賜,特別把這篇《Nature》上的論文拿來看了一下。

這是一篇非常有趣的論文,摘錄心得如下:

1. AlphaGo 決策過程跟過去的棋類程式不大一樣。它裡面每一個stage單獨的方法都是不是新的創見,只是它組合這些方法的framework很特別。它的learning結果(不管是DNN或是RL)都只是中間產物,最後用來幫助搜尋最好的棋步。

2. 它的learning分三個階段,第一個階段「天下棋手為我師」,它主要希望建構一個13層的DNN來學「圍棋專家」的棋步(policy),也就是根據這個盤面預測過去歷史資料中大家會怎麼下。第一階段訓練出來的SL系統就可以下棋,但是結果不是很好,因為其實就只是個模仿專家的系統。

3. 而第二階段「超越過去的自己」是一個Reinforcement Learning的系統,藉由跟過去的自己對戰來refine第一階段學到的policy,而且需要跟過去不同版本的對手對戰avoid overfitting。在這個RL的階段,才首度把勝負當成reward在訓練model。第二階段訓練出來的policy已經有85%的機會贏過state-of-the-art 二段的程式。

加入書籤
立即分享
  • 轉寄
  • 列印
 
想嘗試
100%
很實用
 
很感動
 
做不到
 
很困惑
 
不同意

分享你的經驗和想法,留言就送親子幣喔!

NEW!試試看最新的親子貼圖

  • 讚
  • 謝謝謝謝
  • 大推大推
  • 借分享借分享
  • 啾咪啾咪
  • 有啟發有啟發
  • 苦惱苦惱
  • 哭哭哭哭
  • 感謝感謝
7則留言
  • Gi Shawn 2017-01-10
    Thank you~~~~~
    回覆 • 
    檢舉
  • Vickie Chiou 2016-08-25
    很實用的文章!!!!!
    回覆 • 
    檢舉
  • emily g 2016-04-01
    真是很棒的文章,非常值得分享
    回覆 • 
    檢舉
訂閱親子天下電子報
熱門消息
+ 更多
專欄
  • + 追蹤
    兒童職能治療師
    張旭鎧
  • + 追蹤
    部落客作家
    宅女小紅
  • + 追蹤
    兒童發展專家
    廖笙光
  • + 追蹤
    清大副教授
    周育如
  • + 追蹤
    英語學校執行長
    吳敏蘭
  • + 追蹤
    明新科大助理教授
    劉豫鳳
+ 更多
醫生/專家
  • + 追蹤
    呼吸胸腔科
    賴申豪
  • + 追蹤
    兒童骨科
    高軒楷
  • + 追蹤
    新生兒科
    楊長佑
  • + 追蹤
    臨床心理師
    李筱蓉
  • + 追蹤
    皮膚科
    施一新
  • + 追蹤
    胃腸科
    陳建彰
謝謝您的填寫!
您目前有310 親子幣
可免費閱讀31篇雜誌文章!
回首頁
觀看我的點數
轉寄好友
留言檢舉
請問專家問題檢舉

您的發問已送出,專家會盡快回答,感謝您耐心等候。我們會寄發通知email;或請您時常登入會員區,確認專家是否回答了唷!


請您為這次的「發問流程」評分?

目前問題的「分類」,您覺得:

送出

您想刪除發問的原因是?

已經知道答案
透露個人資訊
不想問了
其他原因
刪除問題

歡迎回來!

我們準備了親子幣小紅包要送給你!

  • 勾選2個喜歡的活動
  • 送出,立即登入領取親子幣100點
  1. 學校教育
  2. 親子教養
  3. 健康
  4. 閱讀
  5. 購物消費
  6. 玩具
  7. 桌遊
  8. 童書
  9. 教育書
  10. 戶外活動
  11. 旅遊
  12. 藝文活動
  13. 料理
  14. 優惠訊息
  15. 折價券
  16. 紅利點數
  17. 現金抵用
  18. 第二件折扣
  19. 進修
  20. 社群活動
  21. 投資理財