AlphaGo出bug瞭嗎?
AlphaGo出bug瞭嗎?36氪的朋友們???2016-03-14???深氪深度學習對我們的沖擊已經如此之大瞭。那麼,遷移學習呢?編者按:在昨日的人機圍棋大戰中,AlphaGo的表現可以說讓所有人都大跌眼鏡。其在優勢的情況下,連出昏招,將大好局面拱手相讓。問題來瞭,AlphaGo是出bug瞭嗎?本文作者戴文淵,第四范式創始人兼CEO。文章源自第四范式公眾號(ID:nextparadigm),36氪經授權轉載。
如果說前三盤的結果令各路專傢們大跌眼鏡的話,第四盤可能是讓所有人都大跌眼鏡瞭。AlphaGo在優勢的情況下,連出昏招,將大好局面拱手相讓。
很多人問,是不是AlphaGo出bug瞭?事實上,深度學習是一個容錯性非常好的系統,即便出瞭bug,對結果的影響也不大。那麼,問題到底在哪?
DeepMind團隊說,這是一個系統問題。我們來看看這個系統到底哪有問題?
一、AlphaGo如何養成
DeepMind團隊曾對外介紹過,AlphaGo的養成分以下四個步驟:
整理過去人類對弈的80多萬盤棋局;
拿1的棋譜,訓練一隻狗狗,能夠預測人類下一步會下在哪裡;
拿2得到的狗狗,每天自己和自己下100萬盤棋;
拿1和3的棋譜,訓練一隻狗狗,這就是AlphaGo。
可以看出來,AlphaGo是基於1億+盤機器棋局和80萬人類棋局訓練出來的狗狗。
二、問題出在哪?
今天的問題,其後級換電容實出在瞭“教學方法”上。
我們看到,訓練AlphaGo所用的棋譜,隻有80萬是人類棋局。總數上億的棋局是機器對弈。它下的每一步,都是將局面導向歷史上(80萬盤人類棋局和1億自己對弈的棋局)勝率最大的局面(或相似局面)。
問題恰恰出在這裡,80萬和1億,相差100多倍,那麼AlphaGo選擇的所謂勝率最大,一定是“贏自己概率”最大,而非“贏人類”概率最大。
這樣的標準在順風棋下尚且不容易出問題,一旦遇到逆風棋,它的選擇標準就變成瞭,選擇對手犯錯概率最大的棋。而這個對手恰恰是它自己。
這就是為什麼今天AlphaGo在逆境中下出一些匪夷所思的棋——作為“業餘中國象棋棋手”的我都看出來的臭棋。
其實,AlphaGo並不認為它們是臭棋。他認為,下這些棋,對手犯錯的概率最大。唯一的問題是,它基於的統計主要是和自己對弈的棋局(超過1億盤)。所以,它在下自己犯錯概率最大的棋,而非人類犯錯概率最大的棋(隻有80萬盤人類棋,在統計數據裡被淹沒瞭)。
更進一步,它非但沒有戳中李世石的要害,還向人類暴露瞭自己的弱點——AlphaGo在平時訓練中就是這樣打自己的——人類如果聰明的話,應該研究一下AlphaGo的怪招,AlphaGo的每一次出招其實都在打向AlphaGo自己……
三、Bug能修復嗎?
AlphaGo今天所犯的錯誤,究其原因,是教學方法的問題。我們基於機器對弈的棋局訓練出來的狗狗,要被拉去與人對打,即便這隻狗狗已經足夠強大,其實它是別扭的。
解決這個問題,最重要的是要糾正80萬對1億的樣本選擇偏差(sample selection bias)。在經濟學領域,sample selection bias是2000年諾貝爾獎獲獎成就。在人工智能領域,它指向瞭一個可能是AI的下一波浪潮——遷移學習(Transfer Learning)。遷移學習能夠讓AI擁有從一個領域學習知識,應用到另一個領域的能力。例如,人類學習數學,對學習物理是有幫助的。這一能力,是目前的深度學習所不具備的。
在遷移學習的框架下,我們可以基於機器對弈的棋局學習,從中去偽存真,把學到的知識應用到和人類的對弈中去。
無論如何,深度學習對我們的沖擊已經如此之大瞭。那麼,遷移學習呢?
本文經授權發佈,不代表36氪立場。如若轉載請註明出處。人工智能贊+136氪的朋友們資深作者“點擊”盡享閱讀沉浸模式,
沉浸模式下點擊右上角按鈕返回
打開微信 ?a href="http://carup.8e.com.tw">低音喇叭電容咭粧?,
打開網頁後點擊屏幕
右上角 分享 按鈕
8+16參與討論提交評論登錄後參與討論相關文章圍棋人機大戰比分最終定格4:1
文/Yuri
雷軍之前覺汽車音響電容價錢得機器戰勝人類是時間問題,但被AlphGo整懵瞭
文/堯異
擁有自我意識和情感的超級人工智能到底會不會出現?
文/腦極體
贊助商 加載中
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表