close
人類:“共同探索圍棋極限” 新AlphaGo:“不瞭吧”

來源:PingWest品玩

5月27日,端午節假期的前一天,少年棋手柯潔和AlphaGo的故事在烏鎮結束瞭。

在過去的幾天裡,AlphaGo戰勝瞭當時這顆星球上最強的人類棋手。柯潔說:要專註於和人類下棋,不再和機器下棋瞭。

AlphaGo的開發團隊說:我們要專註於將AlphaGo的技術應用到其它領域,AlphaGo也不會再和人類下棋瞭。

雖然更多的是唏噓,但人類圍棋界還是放下瞭心來。終於不用再和這個瘋狂而變態的選手較勁瞭。

然而,5個月後,AlphaGo又有瞭新成果,這一次還是和圍棋有關。如果說AlphaGo戰勝柯潔是機器與人類的戰爭,那麼這一次AlphaGo Zero的突破更像是某種客觀規律的戰爭。

AlphaGo似乎觸摸到瞭圍棋這一遊戲的盡頭。

自學成才的AlphaGo Zero

AlphaGo不是早就戰勝人類瞭麼?DeepMind不是說不再讓AlphaGo和人類下棋瞭嗎?

沒錯,這一次AlphaGo的大新聞,確實和人類“沒什麼關系”。

DeepMind中AlphaGo項目組的主要負責人David Silver介紹,AlpheGo Zero目前已經是這個世界上最聰明的計算機棋手,它連續擊敗瞭此前戰勝圍棋世界冠軍李世乭的AlphaGo Lee版本100次。

之所以以李世乭的版本作為對比而沒有使用與柯潔對戰的版本進行對比,是因為受到環境所限今年5月在烏鎮與柯潔對戰的AlphaGo其實是一個特殊的離線Alpha Master版本,僅由一個TPU在不連接網絡的情況下完成對戰。

無論是擊敗李世乭的版本還是擊敗柯潔的版本,過去的AlphaGo在“學習如何下棋”這個階段,使用的都是大量的人類經典棋譜。它們被告台中監視器攝影機知人類的高手在不同的情況下應該如何應對。而這一次的AlphaGo Zero在學習過程中完全沒有使用任何人類的棋譜,它對玩法的探索完全是從自我對弈中學習的。

開始AlphaGo Zero會從非常隨機且無厘頭的下法開始進化,而它的陪練(另一個AlphaGo Zero)的水平也很低。然後AlphaGo Zero會從每一場勝負中,取得經驗,使得自己的奇藝水平不斷提高。

David Silver說,很多人相信在人工智能的應用中算力和數據是更重要的,但在AlphaGo Zero中他們認識到瞭算法的重要性遠高於算力和數據——在AlphaGo Zero中,團隊投入的算力比打造上一個版本的AlphaGo少使用瞭一個數量級的算力。

使用瞭更先進的算法和原理,讓AlphaGo Zero的程序性能本身更加優秀,而不是等待硬件算力技術的提升。

AlphaGo Zero從零開始摸清圍棋規則,就像是一個完全不會下棋的孩子。自我學習3天後,超過AlphaGo Lee(戰勝李世乭版本);21天後,超過AlphaGo Master(網絡對戰60:0版本);在訓練40天後,對弈雙方相互交替持黑白棋的情況下,Zero對Master勝率超過90%。

在訓練完成的AlphaGo Zero隻能給,人們發現它台中監視器安裝推薦自學成才的許多圍棋打法與人類上千年來總結的知識是不謀而合的,比如打劫、征子、棋形、佈局在對角等,都有人類圍棋的影子。

所以人類棋手也不用傷心,這恰恰證明人類在過去的幾千年裡摸索出瞭圍棋這一遊戲的“自然規律”。而人工智能與人類棋手的對比就像是汽車和跑步。

每下一步僅需要思考是0.4秒的AlphaGo Zero所產生的美感與人類在緊張對弈時的美感是完全不同的,就像沒有人會把F1方程式當賽跑比賽看一樣。

那麼,如何做到的?

祭出老圖,我們先復習一下以前的AlphaGo是怎麼工作的:

過去的AlphaGo每一棋的思考,分為兩個界限清晰的步驟是:

1.獲取棋局信息後,AlphaGo會根據策略網絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。這個過程得出的結果是概率分佈,既棋盤上每個位置都有機會被選中,但客觀情況下會有一個特定的區域擁有更高的概率。

2.根據上一步得出的概率分佈,價值網絡(value network)會對概率高的地區再進一步的判斷,得出一個隻有兩個值的結果,每個落子位置要麼被判定為會讓自己贏,要麼被判定為讓對手贏。

在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。

而新的AlphaGo在下棋時中並沒有明顯的策略網絡與價值網絡的分界,它將策略網絡和價值網絡設定為一個新的深層神經網絡fθ(s)= (p, v) 。其中s為棋盤位置,p參數代表原本策略網絡中代表落子概率,v參數代表落子後的勝率。

fθ(s)同時對自己和對手的勝率進行預測,在每個位置s,神經網絡fθ都會進行一次計算。在其中一次對戰獲勝後,贏的一方所使用的p和v值將被作為參數調整進fθ。使得每台中監視器材批發一次對戰後的AlphaGo Zero算法都在朝著可能存在的不敗公式fθ(s)=(π, z)進發。

所以,有台中市監視器什麼用?

“計算機下棋再強,有什麼用?”

馬雲在今年曾經對AlphaGo提出過質疑,這確實也是許多普通吃瓜群眾的質疑。計算機下棋,除瞭欺負柯潔弟弟之外確實沒有什麼用。但是,重要的是,在研究計算機解決圍棋這一課題的過程中,DeepMind的工程師在人工智能上產生瞭重要的突破。

這些突破可以廣泛的應用到其它實際生產的領域,比如在去年7月份,DeepMind就表示:如果全面推動 AI 實裝到數據中心的話,最高可以達到 15%的用電削減。

Deepmind認為,這一次AlphaGo Zero上的突破能夠讓人工智能在一些缺少數據或數據異常昂貴的領域更好的發展,比如模擬蛋白質折疊研發新藥、尋找新的化合材料等。

最重要的是,通過算法提升人工智能的效率,能夠大幅減少對硬件“堆料”的依賴。如果你還不能理解人工智能如何減少數據中心電量的話,可以看一下這幅直觀的對比圖:

這是AlphaGo誕生以來四個版本的能耗對比,用一個與生活更息息相關的數字大概能讓你理解這背後的價值。

2017年,谷歌公佈瞭其在2015年全年的數據中心耗電情況,當時谷歌一年的用電量為57億千瓦時,如果以北京這種高人均用電的大城市做對比,這相當於北京712萬人的用電量。

在這樣的數字上,僅僅是節省10%,也能夠對成本和環境造成巨大影響。

還有另一個對比可能讓你理解人工智能對我們生活的改變。如果你是90年代生人,應該還記得在生物書上看到過那個“人類基因組計劃”——對一個人的23對染色體進行全量測序。

這個耗時13年,耗資超過10億美元,美國,中國,英國,日本,法國和德國6個國傢20多所大學和研究機構完成的“世紀工程”。如今如果利用機器學習“再做一次”的周期大約為兩周,成本大約為2萬美金。而包括英特爾、華大基因、IBM和谷歌等在內的新科技公司,正在力圖在2020年把這個數字降到24台中監視器安裝小時,1000美元。

而全量基因測序可以被認為是人類“攻克癌癥”的重要一步,無論是在癌癥的預防、篩查、優生還是對癌癥藥物的研究和治療上,都會徹底改變現有癌癥的現有診療方式。

這可能就是一群矽谷的高材生要做出一條狗和圍棋這個人類玩瞭上千年的桌面遊戲較勁的原因吧。

台灣電動床工廠 電動床

C8269B6C2C6A717C
arrow
arrow
    創作者介紹
    創作者 kqaxx99162 的頭像
    kqaxx99162

    蘇蘇的採購清單

    kqaxx99162 發表在 痞客邦 留言(0) 人氣()