DeepMind 作為 Google 旗下負責推動 AI 研究的子公司,於10/19 宣布新一代 AlphaGo 正式誕生,名字叫做 AlphaGo Zero,它擁有比過往 AlphaGo 更強大的自我學習能力,DeepMind 認為這項技術未來可被應用在其他社會領域。
打個比方,若是 AlphaGo 是被 DeepMind 餵養數千萬張棋譜長大的話,弟弟 AlphaGo Zero(以下簡稱Zero)就是反其道而行所培養的,它不參考也不閱讀人類的自古到現在的任何一張棋譜,DeepMind 的研究員認為這也許這個切入點,可以打破人類對於圍棋既有的認知,走出不一樣的「定石」和圍棋理解。
還記得一年多前 AlphaGo 的橫空出世嗎?在學習人類百萬張棋譜後,每天孜孜不倦的跟自己下幾萬盤的棋,最後到達了近似於「神乎棋技」的境界後,3月入世下山挑戰的第一個對手,不是默默無名之輩也不是日本棋院院生,直接就指名挑戰韓國最強的圍棋天才李世乭。
最終李世乭雖讓 AlphaGo 吞下一敗,在此役中下出了「神之一手」扳回人類的尊嚴,但依舊以1:4結束了這場賽局。而不管是之後在網路上,打敗中日韓眾家高手取得 60 勝 0 敗的鬼神戰績,還是一年後以3:0完封了世界排名第一的中國棋王柯潔,AlphaGo 利用神經網路以及深度學習技術進行自我學習的能力,的確震驚了全世界。
而就在 10/19日,DeepMind 發表了它的兄弟 AlphaGo Zero,並公布了 Zero 將舊版 AlphaGo 以 100:0 的懸殊戰績完虐的狀況。
舊版的 AlphaGo 需要與人類專家進行成千上萬次對弈,才能從中獲取對奕數據, Zero 則截然不同,雖然一樣是 Alphabet 旗下的子公司 DeepMind 開發的,但它從零開始,面對的只是一張空白棋盤和圍棋的遊戲規則。
DeepMind 聯合創始人 Demis Hassabis 興奮的表示:「最驚人的是,我們不再需要任何人工數據去餵養新的 AlphaGo」
過去的 AlphaGo 展現的是能夠掌握龐大的數據量,並在這個基礎上結合自我學習能力去做深度學習,但這透露出一個缺點是,AlphaGo 有可能在未來,永遠走不出超越人類既有認知的新棋步,然後繼續帶有「模仿人類的圍棋」下法繼續成長,如此 AlphaGo 的棋藝發展依舊侷限於人類的認知範圍裡。
而新的 AlphaGo Zero 展現的就是全新的「自我學習演算法」,因為它從沒看過人類棋譜,因此它單純的是透過與自我的對奕,來提升圍棋能力,它學的只是圍棋規則和關鍵概念,因此它拋棄(或者從來沒有過)一切與「人」有關的圍棋知識,然後透過超深度的自我對奕來達到迅速成長,在 40 天的自我訓練時間內,AlphaGo Zero 日以繼夜的與自己進行了 2900 萬次的對奕。
AlphaGo Zero 不再模仿、參考人類的圍棋玩法,因為不給它任何一張棋譜,因此它就完全沒有被任何思想、下法所框架住。它只能自己跟自己玩,結合全新的自我學習演算法,做到分分鐘成長和突破。
AlphaGo 團隊負責人 Dave Silver 表示:「人們一般認為人工智慧的學習,就是關於大數據和海量計算,但是 DeepMind 通過 AlphaGo Zero 的案例發現,演算法比計算或者數據可用性更重要」。
換言之,Deepmind 想藉 AlphaGo Zero 展現的亮點在於,AI(人工智慧)的未來將無需任何人類指導,和吸收數據;通過全新的強化學習方式,AI(人工智慧)可以自己教導自己,並且成長快速。DeepMind團隊表示,期待將此技術廣泛應用到其他社會問題上,這將對我們的生活產生重大影響。
更驚人的是第一代的 AlphaGo 需要用到 176 個 GPU 晶片,而 AlphaGo Zero 只需要使用一台 4 個 TPU 的機器即可完成自我深度學習的任務,也就是說 Zero 使用的硬體資源更少,但在性能、深度學習上,卻擁有了一個質的進步,高出舊版數個等級。
DeepMind 宣布的這項成果,未來將可應用在多個社會與科學領域中,進而為人類的未來帶來突破性的發展,而這一切不只限定在圍棋領域當中。
from T客邦 http://ift.tt/2gvTrrw
沒有留言:
張貼留言