不靠人類數據反而更強新版AlphaGo Zero

Google 旗下 DeepMind 開發出來的 AlphaGo，在人類圍棋界打遍天下無敵手，但最近卻遭到一位小老弟 100:0 的局數完虐。DeepMind 在《Nature》發表最近論文，介紹最新版的 AlphaGo Zero，純粹靠強化學習，就成為最強的棋士。

我是廣告請繼續往下閱讀

原先舊版 AlphaGo 開發時，先靠人類千年的智慧奠基，由過去的棋譜強化學習運算，算是綜合各家招數後自成一派。但是最新版的 AlphaGo Zero，研究人員只提供遊戲的規則，在不依賴人類數據之下自學，結果「無招勝有招」，表現更勝前代 AlphaGo。

DeepMind 作者群在論文中寫道，AlphaGo Zero 證明了即使在最具挑戰的領域，純強化學習的方法也是完全可行的－完全不需要人類提供範例或指導，不提供基本規則以外的任何領域知識，使用強化學習就能夠超越人類的水準。

此外，純強化學習方法只花費額外很少的訓練時間，相較於使用人類數據，實現了更好的漸進性能（asymptotic performance）。

在很多情況下，人類數據，特別是專家數據，往往太過昂貴，或者根本無法取得。因此，作者認為，如果類似的技術可以應用到其他問題上，這些突破就有可能對社會產生積極的影響。

DeepMind 在論文中指出，在進行了 3 天的自我訓練後，AlphaGo Zero 在 100 局比賽中以 100：0 擊敗了上一版本的 AlphaGo，也就是打敗南韓九段棋士李世乭的版本。之後，再經 40 天的自我訓練後，AlphaGo Zero 變得更加強大，超越了「Master」版本的 AlphaGo－完勝柯潔的版本。

更多精彩內容請至《鉅亨網》連結>>

不靠人類數據反而更強 新版AlphaGo Zero

迎接不同階段 林爸爸：懷孕生子是林志玲現階段神聖工作

黃金能否衝上2000美元？華爾街看法分歧

美國CDC對香港發旅遊警示 列「台日星韓泰越」有社區

迎接不同階段　林爸爸：懷孕生子是林志玲現階段神聖工作

美國CDC對香港發旅遊警示列「台日星韓泰越」有社區