11/15/2017

快思慢想讀書會:談 Alpha go zero

電腦與人類的棋賽

1. BLUE当初就是暴力解題,他利用 minmax 窮舉法,也就是決策樹,列出各種決策可能,找最大得分或最小失分。這種做法,就西洋棋OK, 但到圍棋困難,因為圍棋的未來三步的可能性: 361步一13萬步一4700萬步,可能性太多了!


2. alphago 的做法
他採用兩個網路,來思考:
(1)policy network下一步要做什麼
(2)value nrtwork 現在我的得分多少
設計的卷積核大小為 5x5(25格),然後進行 13層的卷積分析

三個input data 的卷積核
player stone
opponent stone
empty positions

先做監督学習法(輸入3000萬个棋譜)
強化學習法、不断比較(
human expert positions 
self play position)
先用蒙地卡罗法列举各種可能性
176 GPU, 2100 CPU 來做運算

3.alpha go master
在打敗韓國棋士LEE seido後,開始開發
最後打敗日韓無敵手,只剩下柯潔

4. alpha go zero 
3天時間用490萬次自我对弃赢alphago lee
21 天战勝 alphago master

alpha go zero 用2000顆 TPU(tensor flow)
AlphaGo Zero 是一個完全不需要人類先備知識就能自我學習的人工智慧,所以只能有規則知識,不能有圍棋知識。

5.弱人工智能
有目的地的:如echo、cotana
無目的:療愈的、但沒特殊目的、给一般的回答

DL的商業应用、主要在
(1)降低成本
(2)做噱頭

醫学应用
病理影片辨識、成功率只要80%、就可商用化
雖不如人的96%、但可结合DL來cost down

深度學習的应用在股票市場、但未必真的有用的DL_可能只是迴歸分析、

DL的目的~
层愈少愈好(判断篩選 layer)
资料愈少愈好(未必是大数据更好)
練習愈少愈好







沒有留言: