我是廣告 請繼續往下閱讀
DeepMind 作者群在論文中寫道,AlphaGo Zero 證明了即使在最具挑戰的領域,純強化學習的方法也是完全可行的-完全不需要人類提供範例或指導,不提供基本規則以外的任何領域知識,使用強化學習就能夠超越人類的水準。
此外,純強化學習方法只花費額外很少的訓練時間,相較於使用人類數據,實現了更好的漸進性能(asymptotic performance)。
在很多情況下,人類數據,特別是專家數據,往往太過昂貴,或者根本無法取得。因此,作者認為,如果類似的技術可以應用到其他問題上,這些突破就有可能對社會產生積極的影響。
DeepMind 在論文中指出,在進行了 3 天的自我訓練後,AlphaGo Zero 在 100 局比賽中以 100:0 擊敗了上一版本的 AlphaGo,也就是打敗南韓九段棋士李世乭的版本。之後,再經 40 天的自我訓練後,AlphaGo Zero 變得更加強大,超越了「Master」版本的 AlphaGo-完勝柯潔的版本。
更多精彩內容請至 《鉅亨網》 連結>>