AlphaGo對局李世石兩周年紀：AI算法的秘密 - 全文

這篇文章的主角是AlphaGo，谷歌DeepMind團隊開發(fā)出的圍棋AI。其憑借著2016年擊敗全球頂尖棋手李世石的壯舉而廣受矚目。圍棋是一種古老的棋類游戲，每一步都存在諸多選擇，因此接下來的落子位置很參議會預(yù)測——要求對弈棋手擁有強大的直覺與抽象思維能力。正因為如此，人們長久以來一直認為只有人類擅長下圍棋。大多數(shù)研究人員甚至認定，還需要數(shù)十年才會出現(xiàn)真正具備這種思考能力的AI。但如今距離AlphaGo對李世石的比賽已經(jīng)過去了兩年（3月8日至3月15日），而本篇文章正是為了紀念這個偉大的日子！

不過更可怕的是，AlphaGo并沒有停止自己的前進腳步。8個月之后，它在某圍棋網(wǎng)站上以“Master”為名與全球各地的冠軍棋手進行了60盤職業(yè)對弈，且拿下全勝成績。

這當(dāng)然是人工智能領(lǐng)域的一項巨大成就，并在全球引起了一股新的討論熱潮——我們到底該對人工智能的發(fā)展速度感到興奮，還是擔(dān)心？

今天，我們將以DeepMind在《自然》雜志上發(fā)表的原始研究論文作為基礎(chǔ)，逐段對其內(nèi)容進行簡單清晰的解讀，詳細介紹AlphaGo是什么以及它的工作原理。我也希望大家能夠在閱讀本文之后，不再被媒體頭條拋出的聳人聽聞的標題所恐嚇，而真正對關(guān)于人工智能的發(fā)展感到振奮。

當(dāng)然，你不需要掌握圍棋技巧，也同樣可以理解本文的觀點。事實上，我本人只讀過網(wǎng)絡(luò)百科上的一丁點圍棋說明。相反，我其實會使用基礎(chǔ)的國際象棋示例來解釋相關(guān)算法。大家只需要了解雙人棋類游戲的基本規(guī)則即可——每位選手輪流行動，最后將產(chǎn)生一位贏家。除此之外，你不需要了解任何物理學(xué)或高數(shù)知識。

這樣盡可能降低入門門檻，是為了能讓剛剛接觸機器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)的朋友更容易接受。本文也刻意降低了表述復(fù)雜度，也是希望大家能把注意力盡量集中在內(nèi)容本身。

眾所周知，AlphaGo項目的目標在于建立一款A(yù)I程序，并保證其能夠與世界頂級人類選手在圍棋領(lǐng)域一較高下。

為了理解圍棋帶來的挑戰(zhàn)，我們首先聊聊與之類似的另一種棋類運動——國際象棋。早在上世紀九十年代初，IBM公司出打造出深藍計算機，其在國際象棋比賽中擊敗了偉大的世界冠軍加里·卡斯帕羅夫。那么，深藍是如何做到這一點的？

事實上，深藍使用了一種非常“暴力”的作法。在游戲的每一步，深藍都會對所有可能作出的合理棋步作出考量，并沿著每種棋步探索以分析未來的局勢變化。在這樣的前瞻性分析之下，計算結(jié)果很快形成一種千變?nèi)f化的巨大決策樹。在此之后，深藍會沿著樹狀結(jié)構(gòu)返回原點，觀察哪些棋步最可能帶來積極的結(jié)果。然而，何謂“積極的結(jié)果”？事實上，眾多優(yōu)秀的國際象棋棋手為深藍精心設(shè)計出了國際象棋策略，旨在幫助其作出更好的決策——舉例來說，是決定保護國王，還是在盤面的其它位置獲得優(yōu)勢？他們針對此類目的構(gòu)建起特定的“評估算法”，從而比較不同盤面位置的優(yōu)勢或劣勢權(quán)重（IBM公司將專家們的象棋策略以硬編碼形式引入該評估函數(shù)）。最終，深藍會據(jù)此選擇出經(jīng)過精心計算的棋步。在接下來的回合中，整個過程再次重復(fù)。

這意味著，深藍在每一步之前都會考量數(shù)百萬個理論位置。因此，深藍最令人印象深刻的表現(xiàn)并不在于人工智能軟件層面，而體現(xiàn)在其硬件之上——IBM公司宣稱，深藍是當(dāng)時市場上最為強大的計算機之一。其每秒能夠計算2億個盤面位置。

現(xiàn)在讓我們回到圍棋方面。圍棋顯然更為開放，因此如果在這里重復(fù)深藍的戰(zhàn)略，將根本無法獲得理想效果。由于每個棋步都擁有過多可選擇的位置，因此計算機根本無法涵蓋這么多潛在的可能性。舉例來說，在國際象棋的開局當(dāng)中，只有20種可能的下法；但在圍棋方面，先手選手將擁有361個可能的落子點——而且這種選擇范圍在整個對弈過程中一直非常廣泛。

這就是所謂“巨大搜索空間”。而且在圍棋當(dāng)中，判斷某個特定盤面位置的有利或不利權(quán)重并沒那么容易——在官子階段，雙方甚至還需要再排布一陣才能最終確定誰才是勝利者。但有沒有一種神奇的方法能夠讓計算機在圍棋領(lǐng)域有所建樹？答案是肯定的，深度學(xué)習(xí)能夠完成這項艱巨的任務(wù)！

因此在本次研究當(dāng)中，DeepMind方面利用神經(jīng)網(wǎng)絡(luò)來完成以下兩項任務(wù)。他們訓(xùn)練了一套“策略神經(jīng)網(wǎng)絡(luò)（policy neural network）”以決定哪些才是特定盤面位置當(dāng)中最為明智的選項（這類似于遵循某種直觀策略選擇移動位置）。此外，他們還訓(xùn)練了一套“估值神經(jīng)網(wǎng)絡(luò)（value neural network）”以估算特定盤面布局對選手的有利程度（或者說，下在這個位置對贏得游戲這一目標的實際影響）。他們首先使用人類棋譜對這些神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練（也就是最傳統(tǒng)但也非常有效的監(jiān)督式學(xué)習(xí)方法）。經(jīng)歷了這樣的訓(xùn)練，我們的人工智能已經(jīng)可以在一定程度上模仿人類的下棋方式——這時的它，就像一位菜鳥級人類選手。而后，為了進一步訓(xùn)練神經(jīng)網(wǎng)絡(luò)，DeepMind方面讓AI與自己進行數(shù)百萬次對弈（也就是“強化學(xué)習(xí)”的部分）。如此一來，憑借著更為充分的練習(xí)，AI的棋力得到了極大提升。

憑借這兩套網(wǎng)絡(luò)，DeepMind的人工智能方案就足以擁有等同于此前最先進的圍棋程序的棋藝水平。二者的區(qū)別在于，原有程序使用了此前更為流行的預(yù)置游戲算法，即“蒙特卡洛樹搜索（Monte Carlo Tree Search，簡稱MCTS）”，我們將在稍后具體進行介紹。

不過很明顯，到這里我們還沒有談到真正的核心。DeepMind的人工智能方案絕不僅僅依賴于策略與估值網(wǎng)絡(luò)——其并非利用這兩套網(wǎng)絡(luò)來替代蒙特卡洛樹搜索；相反，其使用神經(jīng)網(wǎng)絡(luò)以進一步提升MCTS算法的成效。實際結(jié)果也確實令人滿意——MCTS的表現(xiàn)達到了超人的高度。這種經(jīng)過改進的MCTS變種正是“AlphaGo”，其成功擊敗了李世石，并成為人工智能發(fā)展歷史上最大的突破之一。

下面讓我們回想一下本文的第一段內(nèi)容。上述提到，深藍計算機是如何在國際象棋的每一步當(dāng)中構(gòu)建起包含數(shù)以百萬計盤面位置與棋步的決策樹——計算機需要進行模擬、觀察并比較每一種可能的落點——這是一種簡單且非常直接的方法，如果一般的軟件工程師必須要設(shè)計出一種棋類程序，那么他們很可能會選擇類似的解決方案。

但讓我們想想，人類是怎樣下棋的？假設(shè)目前您身處比賽中的特定階段。根據(jù)游戲規(guī)則，你可以作出十幾種不同的選擇——在此處移動棋子或者在那里移動皇后等等。然而，你真的會在腦袋里列出所有能走的棋步，并從這份長長的清單中作出選擇嗎？不不，你會“直觀地”將可行范圍縮小至少數(shù)幾種關(guān)鍵性棋步（這里假定您提出了3種明智的棋步），而后思考如果選擇其中某一種，那么棋盤上的局勢將發(fā)生怎樣的轉(zhuǎn)變。對于其中每一種棋步，你可能需要15到20秒的時間進行考量——但請注意，在這15秒內(nèi)，我們并不是在非常精確地推衍接下來的交鋒與變化。事實上，人類往往會在未經(jīng)太多思考的情況下“拋出”一些由直覺引導(dǎo)的選擇結(jié)果（當(dāng)然，優(yōu)秀的選手會比普通選手想得更遠更深）。之所以這樣做，是因為你的時間有限，而且無法準確預(yù)測你的對手會勾勒出怎樣的后續(xù)應(yīng)對策略。因此，你只能讓直覺引導(dǎo)自己。我將這一部分思考過程稱為“鋪展”，請大家在后文中注意這一點。

在完成了對幾種明智棋步的“鋪展”之后，你最終決定放棄這種令人頭痛的思考，直接下出你認為最科學(xué)的一步。

在此之后，對手也會作出對應(yīng)的回應(yīng)。這一步可能早在你的預(yù)料當(dāng)中，這意味著你對于下一步要做的事情更具信心——換言之，不必耗費太多時間進行后續(xù)“鋪展”。或者，也可能你的對手下出了一手妙招，導(dǎo)致你被迫回防并不得不更謹慎地思考下一步選擇。

游戲就這樣持續(xù)進行，而隨著局勢的推進，你將能夠更輕松地預(yù)測每步棋的結(jié)果，鋪展耗時也將相應(yīng)縮短。

之所以說了這么多，是希望以較為淺顯的方式為大家講述MCTS算法的作用——它通過反復(fù)構(gòu)建棋步與位置“搜索樹”以模擬上述思考過程。但其創(chuàng)新之處在于，MCTS算法不會在每個位置（與深藍有所不同）都進行潛在棋步推衍；相反，其會更智能地選擇一小組合理棋步并加以探索。在探索過程中，它會“鋪展”這些棋步引發(fā)的局勢變化，并根據(jù)計算出的結(jié)果對其加以比較。

（好了，只要理解了以上內(nèi)容，本文的閱讀就算基本達標。）

現(xiàn)在，讓我們回到論文本身。圍棋是一種“完美信息游戲”。也就是說，從理論層面講，無論您身處這類游戲的哪個階段（即使剛剛走出一、兩步），大家都有可能準確猜出最終誰輸誰贏（假定兩位選手都會以‘完美’的方式下完整盤）。我不知道是誰提出了這項基本理論，但作為本次研究項目的前提性假設(shè)，其確實非常重要。

換句話來說，在游戲狀態(tài)下，我們將可通過一條函數(shù)v＊（s）來預(yù)測最終結(jié)果——例如你贏得這盤對弈的概率，區(qū)間為0到1。DeepMind的研究人員將其稱為“最優(yōu)估值函數(shù)”。由于某些盤面位置比其它盤面位置更有可能帶來獲勝結(jié)果，因此前者可能比其它位置擁有“更高估值”。讓我再強調(diào)一次，估值＝贏得比賽的0到1間概率值。

但先別急——假設(shè)一位名叫Foma的女孩坐在您的身邊，在每下一步棋時，她都會告訴您這次決定會導(dǎo)致您勝利還是失敗。“你贏了……你辦理了……不，還是辦理了……”我認為這樣的提示對您的棋步選擇并沒有多大幫助，而且非常煩人。相反，真正能夠幫得上忙的其實應(yīng)該是勾勒出所有可能的棋步樹，以及這些棋步將會引發(fā)的狀態(tài)——而后，F(xiàn)oma會告訴你在整個樹狀結(jié)構(gòu)中，哪些狀態(tài)會將你推向勝利，而哪些會招致失敗。突然之間，F(xiàn)oma就成了您的完美伙伴——而非討厭的插嘴者。在這里，F(xiàn)oma將作為您的最優(yōu)估值函數(shù)v＊（s）。此前，人們一直認為像圍棋這樣的游戲，不可能擁有Foma這樣的準確估值函數(shù)——因為其中存在著太多不確定性。

然而，即使您真的擁有了Foma，她對所有可能盤面位置的估算在現(xiàn)實對弈當(dāng)中恐怕也無法奏效。因為在國際象棋或圍棋這樣的游戲當(dāng)中，正如之前所提到，即使是想要預(yù)測七到八步之后的整體局勢，過多的可能性選擇也會令Foma需要耗費大量時間才能得出分析結(jié)果。

也就是說，單憑Foma還遠遠不夠。大家還需要進一步縮小明智棋步的具體范圍，并據(jù)此推衍接下來的局勢走向。那么我們的程序該如何做到這一點？Lusha在這里閃亮登場。Lusha是一位擁有相當(dāng)技巧的國際象棋選手加熱心人，她曾花費數(shù)十年時間觀看國際象棋大師賽。她可以觀看你的盤面位置，快速思考您所能做出的全部合理選擇，并告訴你專業(yè)選手作出各種判斷的可能性。因此，如果您在某一特定時間點上擁有50種可能的棋步選項，Lusha會告訴你職業(yè)棋手選擇每種選項的具體概率。當(dāng)然，其中一些明智的棋步會擁有更高的概率，而其它無意義的棋步則概率極低。她就是你的策略函數(shù)，p（as）。對于給定狀態(tài)s，她能夠為您提供專業(yè)選手可能作出的全部選擇的對應(yīng)概率。

接下來，你可以在Lusha的幫助下尋找更為合理的棋步選項，而Foma則會告訴我們這些棋步對對弈結(jié)果的實際影響。在這種情況下，大家可以選擇由Foma與Lusha協(xié)商給出落子建議，或者也可以先由Lusha提供建議，再由Foma對結(jié)果作出評估。接下來，挑選其中一些選項進行后續(xù)影響分析，再由Foma與Lusha繼續(xù)進行預(yù)測指導(dǎo)——通過這種方式，我們將能夠更為高效地掌握盤面局勢走向。而這，正是所謂“減少搜索空間”的實際意義所在。利用估值函數(shù)（Foma）預(yù)測結(jié)果，利用策略函數(shù)（Lusha）提供棋藝層面的概率取舍以縮小值得進一步探索的落子范圍。這套體系就是所謂“蒙特卡洛鋪展（Monte Carlo rollouts）”。接下來，當(dāng)重新回到當(dāng)前棋步時，你將能夠得到各種選項所對應(yīng)的平均估值結(jié)論，并據(jù)此找到最適合的落子位置。不過到這里，其在圍棋水平方面仍然表現(xiàn)不佳——因為這兩種函數(shù)的實際指導(dǎo)能力還比較孱弱。

不過沒關(guān)系。

首先進行具體解釋。在MCTS當(dāng)中，起步階段的Foma與Lusha的功能還不夠精熟。但對弈數(shù)量越多，二者在預(yù)測可靠結(jié)果與落子位置方面就越強大。論文指出，“縮小高可能性棋步的具體范圍”其實是種較為復(fù)雜的表達，“Lusha實際上是通過提供專業(yè)棋手的落子概率幫助縮小需要考量的選項。以往的工作主要利用這種技術(shù)在策略函數(shù)較為簡單的情況下，提供強大且成熟的AI選手解決方案。

是的，卷積神經(jīng)網(wǎng)絡(luò)非常適合圖像處理類任務(wù)。而且由于神經(jīng)網(wǎng)絡(luò)需要特定輸入內(nèi)容并給出對應(yīng)的輸出結(jié)果，所以其在本質(zhì)上其實也相當(dāng)于一條函數(shù)。這意味著大家可以利用神經(jīng)網(wǎng)絡(luò)來充當(dāng)一種高度復(fù)雜的函數(shù)。從這個思路出發(fā)，大家可以將其傳遞一份盤面位置圖像，并由神經(jīng)網(wǎng)絡(luò)自行判斷當(dāng)前局勢。如此一來，創(chuàng)建出的神經(jīng)網(wǎng)絡(luò)將擁有非常準確的策略與估值能力。

下面，我們將討論Foma與Luha的具體訓(xùn)練方式。為了訓(xùn)練策略網(wǎng)絡(luò)（負責(zé)預(yù)測專業(yè)棋手的落子位置判斷），我們只需要將人類對弈棋譜作為素材，并利用其進行傳統(tǒng)的監(jiān)督式學(xué)習(xí)即可。

另外，我們還希望能夠構(gòu)建起一套略有不同的策略網(wǎng)絡(luò)版本；其應(yīng)該更小巧且速度更快。可以想象，如果Lusha的經(jīng)驗非常豐富，那么其用于處理每個位置的時間也將相應(yīng)延長。在這種情況下，雖然她能夠更好地縮小合理落子范圍，但由于整個過程會不斷重復(fù)，因此耗費時間可能會過長。所以，我們需要為這項工作訓(xùn)練出一套速度更快的策略網(wǎng)絡(luò)（我們將其稱為……Lusha的弟弟，Jerry？姑且就這么稱呼吧）。接下來，一旦利用人類選手的數(shù)據(jù)訓(xùn)練出滿足需求的策略網(wǎng)絡(luò)，我們就可以讓Lusha在圍棋棋盤上進行自我對抗以獲得更多練習(xí)機會。這正是強化學(xué)習(xí)的體現(xiàn)——構(gòu)建起更強大的策略網(wǎng)絡(luò)版本。

此后，我們需要訓(xùn)練Foma進行估值：確定獲勝的概率。人工智能將在模擬環(huán)境當(dāng)中反復(fù)進行自我練習(xí)，每一次觀察其最終綶，并從錯誤當(dāng)中學(xué)習(xí)到更好、更先進的經(jīng)驗。

受到篇幅所限，這里我就不具體介紹網(wǎng)絡(luò)的訓(xùn)練方式了。您可以在本文末尾提供的論文鏈接中（參閱‘方法’部分）了解更多細節(jié)信息。事實上，這篇論文的主要目的并非說明研究人員如何在這些神經(jīng)網(wǎng)絡(luò)之上進行強化學(xué)習(xí)。DeepMind在之前發(fā)表的一篇文章中，已經(jīng)談到過他們?nèi)绾卫脧娀瘜W(xué)習(xí)技術(shù)教會AI掌握雅達利游戲。因此在本文當(dāng)中，我只在內(nèi)容摘要部分稍微提到一點相關(guān)內(nèi)容。這里再次強調(diào)，AlphaGo的最大創(chuàng)新在于DeepMind研究人員們利用強化學(xué)習(xí)加神經(jīng)網(wǎng)絡(luò)來改進已經(jīng)廣泛流行的游戲算法MCTS。強化學(xué)習(xí)確實是一種很酷的工具，研究人員們在常規(guī)監(jiān)督式訓(xùn)練之后利用強化學(xué)習(xí)實現(xiàn)策略與估值函數(shù)神經(jīng)網(wǎng)絡(luò)的微調(diào)。但是，這篇研究論文的主要作用在于證明這款工具的功能多樣性與優(yōu)秀性，而非教導(dǎo)大家如何實際使用。

好了，現(xiàn)在大家對AlphaGo應(yīng)該已經(jīng)建立起比較完整的印象。下面，我們會進一步深入探討之前提到的各個議題。當(dāng)然，其中不可避免要涉及一些看似“危險”的數(shù)學(xué)公式及表達式，但相信我，它們都很簡單（我會作出詳盡解釋）。因此，請放松心態(tài)。

所以，第一步就是訓(xùn)練我們的策略神經(jīng)網(wǎng)絡(luò)（Lusha），其負責(zé)預(yù)測專業(yè)棋手可能作出的判斷。神經(jīng)網(wǎng)絡(luò)的目標是讓人工智能發(fā)揮類似于人類專家的作用。這套卷積神經(jīng)網(wǎng)絡(luò)（正如之前提到，這種特殊的神經(jīng)網(wǎng)絡(luò)非常擅長圖像處理）采用電路板式布局以簡化圖像內(nèi)容。我們可以向該網(wǎng)絡(luò)架構(gòu)的各個層中添加“整流器非線性”，其將賦予整體網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜技能的能力。如果大家以前曾經(jīng)訓(xùn)練過神經(jīng)網(wǎng)絡(luò)，可能對“ReLU”層不會感到陌生。這里我們同樣使用ReLU層。

這里的訓(xùn)練數(shù)據(jù)以隨機盤面位置對的形式存在，而標簽則為人類所作出的落子選擇。這部分訓(xùn)練采用常規(guī)的監(jiān)督式學(xué)習(xí)。

在這里，DeepMind使用了“隨機梯度ASCENT”。這是一種反向傳播算法。通過這種方式，我們希望最大程度發(fā)揮獎勵函數(shù)的作用。獎勵函數(shù)代表的是人類專家作出不同行動預(yù)測的概率；我們的目標則是盡可能提升這一概率。但是，在實際網(wǎng)絡(luò)訓(xùn)練當(dāng)中，我們一般只需要讓丟失函數(shù)盡可能降低即可——這在實質(zhì)上是縮小預(yù)測結(jié)果與實際標簽之間的誤差／差異，也就是所謂梯度下降。在研究論文的實際實現(xiàn)部分，他們確實使用了常規(guī)的梯度下降方法。大家可以輕松找到與獎勵函數(shù)相對的丟失函數(shù)，并通過盡可能降低后者最大程度提升前者。

這套策略網(wǎng)絡(luò)擁有13層，我們將其稱為“SL策略（SL policy）”網(wǎng)絡(luò)（SL代表監(jiān)督式學(xué)習(xí)）。其使用的數(shù)據(jù)來自某個高人氣網(wǎng)站，有數(shù)百萬用戶在這里進行圍棋對弈。那么，SL策略網(wǎng)絡(luò)的實際表現(xiàn)如何？

首先，其圍棋水平要高于其他研究人員的早期開發(fā)成果。至于“鋪展策略”方面，大家可能還記得之前我們曾提到，研究人員們訓(xùn)練出一套速度更快的Lusha版本——我們稱其為Jerry。在這里，Jerry負責(zé)發(fā)揮作用。如大家所看到，Jerry的準確度只有Lusha的一半，但速度卻快了數(shù)千倍！當(dāng)我們應(yīng)用MCTS算法時，Jerry將幫助我們更快地完成對后續(xù)局勢變化的模擬。

要理解下一節(jié)的內(nèi)容，大家可以不了解強化學(xué)習(xí)，但需要認同一項前提——即我所作出的闡述真實有效。如果您希望探究更多細節(jié)并加以嘗試，可能需要首先閱讀一些關(guān)于強化學(xué)習(xí)的背景信息。

一旦擁有了這套SL網(wǎng)絡(luò)，接下來要做的就是利用人類選手的判斷數(shù)據(jù)以監(jiān)督式方式對其進行訓(xùn)練。在此之后，就是由其自我對弈以不斷磨練判斷能力。具體實現(xiàn)方法也很簡單——選擇SL策略網(wǎng)絡(luò)，將其保存在一個文件中，而后再復(fù)制一份副本。

然后，你可以利用強化學(xué)習(xí)對其進行微調(diào)。如此一來，這套網(wǎng)絡(luò)就能夠自我對抗并從結(jié)果中學(xué)習(xí)經(jīng)驗。

不過這樣的訓(xùn)練方式其實存在一個問題。

如果其只在練習(xí)中對抗同一個對手，且該對手也一直貫穿訓(xùn)練始終，那么可能無法獲得新的學(xué)習(xí)經(jīng)驗。換言之，該網(wǎng)絡(luò)所學(xué)到的只是如何擊敗對方，而非真正掌握圍棋的奧秘。沒錯，這就是過度擬合問題：你在對抗某一特定對手時表現(xiàn)出色，但卻未必擁有對付各類選手的能力。那么，我們該如何解決這個問題？

答案很簡單，當(dāng)我們對一套神經(jīng)網(wǎng)絡(luò)進行微調(diào)時，其就會變成另一個風(fēng)格上略有不同的選手。如此一來，我們可以將各個版本的神經(jīng)網(wǎng)絡(luò)保存在一份“選手”列表當(dāng)中，并確保每位選手的表現(xiàn)都有所區(qū)別。很好，在接下來的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，我們可以從列表中隨機選擇不同的版本作為對抗對象。它們雖然源自同一套神經(jīng)網(wǎng)絡(luò)，但表現(xiàn)卻略有區(qū)別。而且訓(xùn)練得越多，選手的版本也就越多。問題就此解決！

在這樣的訓(xùn)練過程中，惟一指導(dǎo)訓(xùn)練過程的只有最終目標 ——即贏得比賽。到這里，我們已經(jīng)不再需要對網(wǎng)絡(luò)進行針對性訓(xùn)練，例如捕捉盤面上的更多位置等。我們只需要為其提供所有可能的合理選項，并下面目標“你必須獲勝”。也正因為如此，強化學(xué)習(xí)才如此強大——其能夠被用于訓(xùn)練任何游戲策略或估值網(wǎng)絡(luò)，而絕不僅限于圍棋。

到這里，DeepMind的研究人員們測試了這套RL策略網(wǎng)絡(luò)的準確性——不使用任何MCTS算法。之前我們曾經(jīng)提到，這套網(wǎng)絡(luò)能夠直接獲取盤面位置并思考專業(yè)棋手的判斷概率。到這里，它已經(jīng)能夠獨立進行對弈了。結(jié)果是，強化學(xué)習(xí)微調(diào)后的網(wǎng)絡(luò)戰(zhàn)勝了僅利用人類棋譜進行訓(xùn)練的監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)。不僅如此，它還能夠戰(zhàn)勝其它強大的圍棋程序。

必須強調(diào)的是，即使是在訓(xùn)練這套強化學(xué)習(xí)策略網(wǎng)絡(luò)之前，監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)也已經(jīng)擁有了超越現(xiàn)有技術(shù)的對弈水平——而如今我們又更進一步！更重要的是，我們甚至不需要使用估值網(wǎng)絡(luò)這類其它輔助方案。

到這里，我們終于完成了對Lusha的訓(xùn)練。接下來重新回到Foma這邊，它代表的是最優(yōu)估值函數(shù)v＊（s）——即只有兩位選手皆完美執(zhí)行其預(yù)期內(nèi)的落子判斷時，她才能提供在目前盤面局勢下獲得優(yōu)勝的可能性。很明顯，為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)充當(dāng)我們的估值函數(shù)，這里需要一位完美的對手……遺憾的是，目前我們還沒有這樣一位對手。因此，我們派出了最強大的選手——RL策略網(wǎng)絡(luò)。

其會提取當(dāng)前盤面狀態(tài)state＿s，而后輸出您贏得本場對弈的概率。每一項游戲狀態(tài)都將充當(dāng)數(shù)據(jù)樣本，并以標簽的形式用于注釋游戲結(jié)果。因此，在經(jīng)過 50次落子之后，我們就獲得了50份估值預(yù)測樣本。

但這種作法實際上非常幼稚——畢竟我們不可能也不應(yīng)該將對弈中的全部50次落子全部添加到數(shù)據(jù)集當(dāng)中。

換言之，我們必須認真選擇訓(xùn)練數(shù)據(jù)集以避免過度擬合的發(fā)生。由于每次落子都會與一個新位置對應(yīng)，因此圍棋中的每一次落子都非常相似。如果將所有落子選擇的狀態(tài)都添加到具有相同標簽的訓(xùn)練數(shù)據(jù)當(dāng)中，那么其內(nèi)容將存在大量“重復(fù)”，并必然導(dǎo)致過度擬合。為了防止這種情況的發(fā)生，我們只能選擇那些更具代表性的游戲狀態(tài)。舉例來說，我們可以只選擇對弈過程中的五個狀態(tài)——而非全部50個狀態(tài)——添加到訓(xùn)練數(shù)據(jù)集內(nèi)。DeepMind從3000萬盤不同對弈過程中提取了3000萬種狀態(tài)，從而減少重復(fù)數(shù)據(jù)的出現(xiàn)可能性。事實證明，這種作法效果極佳！

現(xiàn)在，我們談?wù)劯拍睿?我們可以通過兩種方法評估盤面位置的價值。第一是選擇最佳估值函數(shù)（即之前訓(xùn)練完成的函數(shù)）。另一種則是使用現(xiàn)有策略（Lusha）直接推導(dǎo)盤面局勢，并預(yù)測本次落子帶來的最終結(jié)果。很明顯，真正的對弈很少會完全按照我們的計劃推進。但DeepMind仍然比較了這兩種方法的實際效果。此外，大家也可以將這兩種選項混合使用。稍后，我們將了解這一“混合參數(shù)”，請各位記住這個重要概念。

在這里，我們的一套神經(jīng)網(wǎng)絡(luò)會嘗試給出最近似的最優(yōu)估值函數(shù)，其效果甚至優(yōu)于經(jīng)過數(shù)千次模擬而得出的鋪展策略！Foma在這里的表現(xiàn)真的超贊。在另一方面，DeepMind方面也嘗試使用了準確度翻倍但速度極慢的Lusha RL策略，其需要進行成千上萬次模擬以得出結(jié)論——最終效果略好于Foma。但也只是略好，而速度卻慢了太多。因此，F(xiàn)oma在這場比拼中勝出，她證明自己擁有著不可替代的價值。

現(xiàn)在，我們已經(jīng)完成了策略與估值函數(shù)的訓(xùn)練，接下來可以將其與MCTS結(jié)合起來，從而帶來我們的前任世界冠軍、大師中的大量、一個世代的突破、體重268磅的……Alphaaaa GO！

在本節(jié)中，大家應(yīng)該對MCTS算法的工作原理擁有更為深入的理解。請別擔(dān)心，迄今為止提到的全部內(nèi)容應(yīng)該足以支持您順利掌握相關(guān)內(nèi)容。惟一需要注意的是我們?nèi)绾问褂貌呗愿怕逝c估值方法。我們在鋪展過程中將二者結(jié)合在一起，從而縮小每次落子時需要探索的具體范圍。Q（s，a）表示估值函數(shù)，u（s，a）則代表該位置的已保存概率。下面我將具體作出解釋。

另外需要注意的是，策略網(wǎng)絡(luò)是使用監(jiān)督學(xué)習(xí)來預(yù)測專業(yè)棋手落子判斷的。其不僅能夠提供概率最高的落子選項，同時也會提供各個選項的具體概率。這一概率可被存儲在各個落子判斷當(dāng)中。在這里，DeepMind方面將其稱為“先驗概率”，并利用其選擇有必要進行探索的落子選項。基本上，要決定是否需要對某一特定落子選項進行探索，我們需要考慮以下兩點：首先，通過這步棋，我們有多大概率獲勝？是的，我們已經(jīng)擁有了能夠回答這個問題的“估值網(wǎng)絡(luò)”。第二個問題是，專業(yè)棋手有多大概率會考慮這一棋步？（如果專業(yè)棋手不太可能考慮這步棋，那么我們?yōu)槭裁匆速M時間進行探索？這部分結(jié)論由策略網(wǎng)絡(luò)負責(zé)提供。）

接下來，讓我們聊聊“混合參數(shù)”。如前文所述，為了評估各個盤面位置，我們有兩種選擇：其一，直接利用一直用于評估盤面狀態(tài)的估值網(wǎng)絡(luò)。第二，我們也可以使用現(xiàn)有策略網(wǎng)絡(luò)快速推導(dǎo)對弈情況（假定對方選手也采取符合預(yù)測的下法），從而判斷我們是輸還是贏。一般來講，估值函數(shù)的效果要比常規(guī)鋪展更好。在這里，將二者結(jié)合將能夠提供每項預(yù)測的權(quán)重估值，例如五五開、四六開等等。如果大家以百分比形式對估值X進行處理，則另一項就是（100－X）％。這就是混合參數(shù)的意義所在。后文中將對其實際效果進行說明。

在每一次鋪展之后，大家都可以利用在模擬當(dāng)中獲得的任何信息對搜索樹進行更新，從而進一步提升未來模擬的明智度。在所有模擬結(jié)束之后，您從中選擇最佳落子選項即可。

下面來看有趣的結(jié)論！

大家應(yīng)該還記得，RL微調(diào)策略神經(jīng)網(wǎng)絡(luò)擁有比SL人力訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)更好的判斷效果。但在將其添加至AlphaGo的MCTS算法中時，使用人工訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反過來超越了微調(diào)神經(jīng)網(wǎng)絡(luò)。與此同時，在估值函數(shù)（可以理解成以無限趨近方式提供完美判斷）方面，利用RL策略進行Foma訓(xùn)練能夠帶來超越使用SL策略的實際效果。

“執(zhí)行上述評估需要耗費大量計算資源，我們必須拿出壓箱底的硬貨才能搞定這些該死的程序。”

但DeepMind的言下之意其實是……

“吼吼，跟我們的程序相比，以前的那些圍棋程序簡直就是唐氏兒童級別。”

這里再說回“混合參數(shù)（mixing parameter）”。在評估位置時，對估值函數(shù)及鋪展二者的重視程度要高于其中任意一者。其余部分是DeepMind方面的深入解釋，可以看到其中昭示了一項有趣的結(jié)論！

請再讀一次標有紅色下劃線的句子。相信大家已經(jīng)能夠理解，這句話基本就是對整個研究項目的全面總結(jié)。

閱讀全文

上一頁 1 2 3全文

谷歌(103102) 谷歌(103102)
AI(263626) AI(263626)

小米第六輪開放購買時間4月6日早10時

昨日晚些時候，小米科技黎萬強在其微博表示，在2012年4月6日米粉節(jié)當(dāng)天，即公司成立兩周年之際，將進行第六輪開放購買，備貨10萬臺。不同往次在于，本輪備貨聯(lián)通版與電信版各5萬

2012-03-29 10:25:57

5493

AlphaGO大勝李世石但與“劃時代”無關(guān)

　3月15日，谷歌人工智能圍棋軟件AlphaGo與前世界圍棋第一人、韓國九段名將李世石的第五場對戰(zhàn)結(jié)束，AlphaGo以4:1的總比分戰(zhàn)勝李世石。至此，這場影響廣泛的人機大戰(zhàn)落下帷幕。不少人認為，對于AI界、圍棋界來說，這是一件劃時代的事情，它甚至?xí)谀承┮饬x上改變?nèi)祟惖拿\。

2016-03-18 17:16:52

1033

收購ARM始末：兩周內(nèi)完成科技行業(yè)最大的一筆收購

軟銀本月對ARM發(fā)起收購要約，外媒深度爆料稱，這筆震驚業(yè)界的天價交易，經(jīng)過兩周多的秘密談判，不僅消息沒有提前走漏，最終也沒有受到英國政界的阻攔。

2016-07-29 16:46:49

1537

2018H1歐普照明營收35.3億同比增長17.2%

轉(zhuǎn)眼2018已過半，作為行業(yè)領(lǐng)軍企業(yè)的小歐又要公布半年報啦! 快來看下正值上市兩周年的小歐，又會交出怎樣的喜人答卷呢?

2018-08-23 11:00:33

2930

福利！搭載華為鴻蒙操作系統(tǒng)BearPi-HM Nano 開發(fā)板限時開搶！

為了答謝廣大學(xué)員和工程師用戶對我們一直以來的支持與關(guān)愛，藉此小熊派成立兩周年之際，我們攜手電子發(fā)燒友網(wǎng)共同推出本次周年慶五折優(yōu)惠大放送活動來回饋給大家，活動期間(2021.4.11至2021.4.17)，凡是提前加入周年慶活動群，均有機會獲得搶購名額！

2021-04-12 17:58:54

4023

#25[作品展示]520戀愛3D時鐘【原創(chuàng)】【110樓與112樓最終更新】

` 本帖最后由 xueyuelangying 于 2013-8-9 13:13 編輯貌似還沒有兄弟發(fā)作品提交貼，小弟自不量力，先行連載自己的當(dāng)前進度吧，不好的地方大家輕噴啊。戀愛兩周年

2013-06-29 23:13:34

AI算法中比較常用的模型都有什么？

AI算法中比較常用的模型都有什么

2022-08-27 09:19:06

AI思維：給人類教育的三項啟示

Zero>探索空間的全域最優(yōu)(海中抓魚)，而勝過了企鵝AlphaGo和人類。3. AI思維：給人類教育的三項啓示第一項啓示從上所述，AI思維給人類教育的啓示之一是：學(xué)校老師們有兩中學(xué)生：人類學(xué)生與

2020-12-16 10:33:35

AI是什么呢？AI應(yīng)用又會給人們帶來哪些改變

準。早在2016年，AlphaGo通過深度學(xué)習(xí)成為了第一個戰(zhàn)勝圍棋世界冠軍的人工智能機器人，從而讓AI這一技術(shù)火爆

2021-12-20 06:42:13

AI芯片格局最全分析精選資料分享

、各自為政的紛亂局面；特別是每個初創(chuàng)企業(yè)的AI芯片都具有自己獨特的體系結(jié)構(gòu)和軟件開發(fā)套件，既無法融入英偉達和谷歌建立的生態(tài)圈，又不具備與之抗衡的實力。>>>> 如果說 2016 年 3 月份 AlphaGo

2021-07-23 07:10:29

AI芯片談算法不談智能，談實現(xiàn)不談芯片！

1談算法不談智能IEEE協(xié)會首次在京舉辦研討會的時候，中國自動化學(xué)會副理事長兼秘書長、中科院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點實驗室主任王飛躍稱不存在AI芯片。對于這一觀點的爭議非常大，網(wǎng)絡(luò)上

2018-08-24 10:36:53

AlphaGo為何精通圍棋？圍棋論文曝光【中文翻譯】-原來它是這樣深度學(xué)習(xí)和思考的，難怪老贏！

算法實現(xiàn)。這些深度神經(jīng)網(wǎng)絡(luò)創(chuàng)造性的通過合并了監(jiān)督式學(xué)習(xí)（通過人類專家棋手的棋譜學(xué)習(xí)）和強化式學(xué)習(xí)（通過自我對弈的方式）來訓(xùn)練。沒有任何的超前搜索，這些神經(jīng)網(wǎng)絡(luò)已經(jīng)通過自我對弈的方式模擬成千上萬的對局并使

2017-06-06 18:25:55

C.程序設(shè)計語言.特別版.十周年紀念版

本帖最后由 lee_st 于 2018-2-11 23:01 編輯 C.程序設(shè)計語言.特別版.十周年紀念版

2018-02-11 00:30:13

FPGA 如何實現(xiàn)串行算法?????? 大神

如何用FPGA實現(xiàn)串行算法？我想用FPGA做一個隨機數(shù)發(fā)生器，然后想用李世剛那個超素數(shù)法，但是要生成1024bit的01序列，它們是用第一bit順推第二bit 的產(chǎn)生。請問大神，有沒有沒有好的辦法

2013-03-11 19:23:49

Fencer&Snoopy史努比65周年紀念彩虹風(fēng)暴充電寶

　　你知道嗎，憨厚可愛的史努比其實已經(jīng)年紀一大把了。2015年是《花生漫畫》誕生65周年的日子，當(dāng)然也是史努比65歲的生日。Fencer攜手Snoopy推出史努比65周年紀念彩虹風(fēng)暴充電寶

2016-03-07 14:58:48

【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera的ADAS項目

與喚醒4.3、前車拍4.4、駕駛行為分析算法4.5、車輛物體檢測及跟蹤算法5、基于HiSpark AI Camera制作3D打印外殼發(fā)布過的作品:關(guān)于NanoPi（RK3399）系列帖子，其中有兩篇被

2020-09-25 10:12:07

【免費直播】AI芯片專家陳小柏博士，帶你解析AI算法及其芯片操作系統(tǒng)。

智慧化進程。人工智能芯片是人工智能發(fā)展的基石，是數(shù)據(jù)、算法和算力在各類場景應(yīng)用落地的基礎(chǔ)依托。“無芯片不AI”已經(jīng)深入人心，成為業(yè)界共識。本次直播將述說AI芯片設(shè)計帶你解析AI算法及其芯片操作系統(tǒng)

2019-11-07 14:03:20

世界AI大會上馬云、馬化騰、李彥宏等大佬都說了什么

工智能大會上發(fā)表主題演講，他講到：　　兩年半前，AlphaGo 是里程碑事件，這是人工智能的偉大成就。圍棋復(fù)雜度遠遠高于象棋，我們曾經(jīng)認為可預(yù)見的100年內(nèi)圍棋都不會被突破，原因是計算能力。深度學(xué)習(xí)算法

2018-09-18 09:22:59

人工智能VS圍棋名將李世石，誰會贏？

李世石將在韓國首爾面對人工智能對手的挑戰(zhàn)。這將是一場重量級比賽，被認為堪比1997年國際象棋大師卡斯帕羅夫與IBM超級計算機“深藍”之間的對抗。當(dāng)時，“深藍”在5盤比賽中以3比2取勝。這也被認為是

2016-03-07 10:53:05

人工智能成熱潮，嵌入式如何分杯羹？

的獨立思考，“行為”是人類個體與客觀世界的交互狀態(tài)，除了思考還要有對外部世界的感知與控制。AlphaGo屬于前者，它與李世石、柯潔對決，還要有代理人將它的思維能力轉(zhuǎn)化成對決的下棋行為。實現(xiàn)人工智能的行為

2017-09-06 18:14:34

人工智能能否取代人類？

為什么大家對這類問題如此感興趣？這可能要追溯到2016年，AI真正進入到大眾視野并引爆媒體的標志性事件，也就是AlphaGo戰(zhàn)勝圍棋的世界冠軍-李世石。在之后，我們看到一個又一個AI技術(shù)的突破，以及

2019-09-11 11:52:15

你知道AlphaGo是怎么下棋的嗎？AlphaGo為什么能贏李世石？

，原作者SpinPunch CTO DAN MAAS。作者微信公號“董老師在硅谷”。剛剛?cè)祟惵殬I(yè)選手世界冠軍李世石九段認輸，第一局AlphaGo贏了。谷歌DeepMind宣布他們研發(fā)的神經(jīng)網(wǎng)絡(luò)圍棋AI

2016-03-10 14:27:17

先進的創(chuàng)新教育：AI 思維+設(shè)計思維

。這文章敘述了新一代的AlphaGo Zero，它跳脫了對人類先驗知識的依賴，棋藝竟然遠遠超越了人類以及它的前輩AlphaGo。從上述可知，機器成效遠勝于人類，無論人類老師教有沒有教它一些先驗知識

2021-01-04 10:16:36

制作PCBWay 6周年紀念徽章的教程

描述6周年官方徽章PCBWay電子組件更類似于其他以前的徽章。更簡單，沒有復(fù)雜，我們不需要編程任何IC......只有酷和有趣。它的背面有 6 個閃光燈 LED（每年一個）。這個想法是當(dāng)你把別針放在 T 恤上時，會產(chǎn)生一種間接的彩色燈光效果。它打算用黑色制成，帶有金色飾面（我喜歡這種組合）

2022-08-18 07:24:56

制作一個5周年紀念徽章

描述5周年紀念徽章代碼https://github.com/akirasan/PCB-5th-AnniversaryPCBWay

2022-09-07 06:51:37

好福利！ADI《模擬對話》50周年紀念冊大派送

筒子們，好消息啊 ADI《模擬對話》50周年紀念冊（中文版）大派送啦！想要的請移步至：https://ezchina.analog.com/thread/16541 申請。ps.人人都有份該

2017-08-09 22:57:21

機器人將取代人類，你覺得吶？

``機器人K?O人類？ 3.9機器人初戰(zhàn)告捷看到文章的標題，想必很多小伙伴已經(jīng)知道說的是什么了！今天中午12點，谷歌AlphaGo人工智能與圍棋世界冠軍李世石的人機大戰(zhàn)在韓國首爾舉行第一場比賽

2016-03-09 18:38:02

柯潔首戰(zhàn)落敗，人機大戰(zhàn)2.0“柯大俠”遇“狗”也沒轍！

昨日，萬眾矚目的“人機大戰(zhàn)2.0版”終于上演，世界圍棋第一人柯潔九段與人工智能AlphaGo展開三番棋較量，在雙方首局比賽中，柯潔執(zhí)黑遺憾惜敗。遙想去年，人工智能AlphaGo擊敗李世石的時候，柯潔

2017-05-24 22:12:28

深藍象棋AI的minimax算法

通往游戲外掛的終極之路——超級游戲AI系列之一：minimax算法

2019-06-25 16:49:48

自動駕駛車輛中AI面臨的挑戰(zhàn)

自動駕駛車輛中采用的AI算法自動駕駛車輛中AI面臨的挑戰(zhàn)

2021-02-22 06:39:55

設(shè)計一個簡單的Fanmade 7周年紀念徽章

描述Fanmade 7 周年紀念徽章這是我為慶祝 PCBway成立 7 周年而設(shè)計的一個簡單的 PCB 徽章。它的背面有 6 個 RGB 閃爍 LED。一個 CR2032 紐扣電池座和一個開關(guān)。尺寸：44mm x 50mm層數(shù)：2表面處理 : ENIG阻焊層 : 黑色展示

2022-07-25 06:04:15

高煥堂老師AI概論：活用<BP算法的黃金三公式>

一、前言在上一篇文章《AI機器學(xué)習(xí)的黃金三公式》裏，已經(jīng)說明瞭，學(xué)習(xí)AI的BP算法有兩個途徑：途徑-1. 像牛頓一樣的科學(xué)家，會去用數(shù)學(xué)證明 F = ma。如果您是AI算法和模型的科學(xué)家，才需要

2020-12-15 09:58:31

黑科技 | 比肩阿爾法狗，國產(chǎn)AI棋手絕藝稱霸世界

的絕藝，架構(gòu)上與AlphaGo Zero論文架構(gòu)相似，但是騰訊在細節(jié)方面有自己的嘗試和探索。而絕藝方面也表示，得益于AlphaGo Zero的論文公布，大部分AI實力都有大幅提升。感謝AlphaGo

2018-08-02 08:17:29

e絡(luò)盟Raspberry Pi及其獨有配件等資源面世兩周年

e絡(luò)盟日前宣布獨家推出系列Raspberry Pi 配件、最新在線資源及Raspberry Pi 開發(fā)項目，以便為用戶提供更多全新功能進行Raspberry Pi項目創(chuàng)建，同時為他們提供一個分享創(chuàng)意及學(xué)習(xí)提升的統(tǒng)一平臺。

2014-02-26 20:00:22

757

Apple Watch迎來兩周歲 Apple Watch2怎么樣？3代又什么時候出？

蘋果的Apple Watch可以說是目前市面上銷售最好的智能手表了，Apple Watch上市也迎來了兩周年的日子，在這兩年里，Apple Watch受到了來自于谷歌Android Wear和許多各種類型競爭對手的挑戰(zhàn)。雖然Apple Watch的表現(xiàn)并不算差，但是銷售數(shù)據(jù)也沒有預(yù)期的那么出色。

2017-04-26 09:42:44

1234

小米6最新消息：小米京東聯(lián)手打造超級新品日！小米6四輪搶購，還有京東特供版紅米Note4X，你搶到了嗎？

2015年5月18日小米公司與京東商城聯(lián)合宣布，小米京東官方旗艦店正式上線運營。5月18日，在小米公司與京東商城牽手兩周年前夕，小米公司聯(lián)合創(chuàng)始人、總裁林斌與京東集團副總裁、3C事業(yè)部總裁胡勝利共同

2017-05-19 15:11:01

3752

柯潔以四分之一子劣勢惜敗AlphaGo 柯潔：Google的狗太強大了

經(jīng)過4小時17分37秒的對局之后，柯潔最終以四分之一子的劣勢惜敗AlphaGo，本局柯潔用時2小時46分43秒，AlphaGo用時1小時30分54秒。

2017-05-23 17:43:18

927

變輕的AlphaGo,僅使用1個谷歌專用芯片

近日，與柯杰象棋博弈的人工智能（AI）‘AlpahGo2.0’的大腦秘密被公開了。它僅用一個谷歌制造的機器學(xué)習(xí)（MachineLearning）專用芯片‘tensorProcessingUnit（簡稱TPU）’就能運行。

2017-05-24 17:24:09

1276

透過柯潔AlphaGo大戰(zhàn)看vivo Xplay6智慧引擎3.0

近年來，AI火熱程度持續(xù)高漲，受到越來越多的人關(guān)注。例如最近的柯潔與AlphaGo人機圍棋大戰(zhàn)就引來眾多網(wǎng)友的熱議。一個是圍棋九段的世界冠軍，一個是高度智能化的圍棋程序，此次對局，意義不小

2017-05-25 11:30:27

2064

iphone8什么時候上市?iphone8最新消息:蘋果手機10周年紀念款,iphone8在9月能否如期上市?

另外一個WWDC已經(jīng)結(jié)束了，雖然蘋果公司從未在WWDC直接發(fā)布iPhone 8，但它確實是引入了新的操作系統(tǒng)——ios11，2017年是iPhone的十周年，對于即將到來的十周年紀念，iPhone 8給我們帶來了一些期許。

2017-06-21 14:35:52

2996

60周年紀念車型-菲亞特推出限量紀念版Anniversario車型

據(jù)美國汽車網(wǎng)站6月29日報道，菲亞特500在7月4日迎來了六十周年紀念日，正式推出限量紀念版Anniversario車型，以多處復(fù)古元素向經(jīng)典車型菲亞特500 致敬。

2017-07-07 16:32:34

796

如何對局域網(wǎng)內(nèi)的無線設(shè)備進行管理和流控

2017-09-05 14:18:36

iPhone8正式亮相，9月22號開售，iPhoneX十周年紀念版重回玻璃后蓋

北京時間9月13日凌晨消息，蘋果今天召開秋季新品發(fā)布會，正式推出年度旗艦手機iPhone 8/8 Plus與十周年紀念版iPhone X。

2017-09-13 02:56:52

5045

新旗艦之王，十周年紀念版本iPhoneX三大亮點詳解

9月13日，全球知名手機廠商蘋果在新的喬布斯劇院召開新品發(fā)布會，iPhone 8之后，隆重推出十周年紀念版本iPhone X。全新的iPhone X配備了人臉識別解鎖（Face ID）。iPhoneX前面板上方密集排布了多個傳感器和攝像頭

2017-09-13 03:17:26

2168

為什么AlphaGo不是人工智能

為什么 AlphaGo 不是人工智能。 AlphaGo 什么是 AI，什么不是 AI？毫無疑問，由 Google DeepMind 設(shè)計的圍棋人工智能 AlphaGo 是一個很智能的系統(tǒng)。在擊敗世界冠軍

2017-10-09 10:29:29

深度解讀AlphaGo

什么？人類已經(jīng)打開了潘多拉魔盒嗎？AlphaGo的勝利是否意味著人工智能的黑色方碑已經(jīng)出現(xiàn)？本文將從AlphaGo的原理入手逐步探討這個問題。 AlphaGo與李世石的對戰(zhàn)已經(jīng)進行了四局。前三局世人

2017-10-12 11:17:02

AlphaGo的機器學(xué)習(xí)泛化能力仍待提高

上了數(shù)以千計的CPU和上百的GPU，AlphaGo在與李世石的挑戰(zhàn)賽中贏了第一局。除了算法的設(shè)計，這還是計算的勝利，用DeepMind公司研究負責(zé)人David Silver的話說，職業(yè)棋手在考慮下一

2017-10-12 17:30:33

DeepMind團隊全面解讀AlphaGo

昨天AlphaGo再次震驚所有人。剛剛，這個史上最強圍棋AI的兩位主要開發(fā)者，David Silver和Ju

2017-10-25 17:23:00

6484

阿爾法狗已逝？AI領(lǐng)域才剛剛開始

等領(lǐng)域的應(yīng)用，AlphaGo的相關(guān)算法也會被用在AI的真實落地應(yīng)用中。AlphaGo可能死了，但AI才剛剛開始。

2017-12-14 14:13:45

2664

世強兩周年慶搞事情_keysight現(xiàn)貨限量促銷低至2折起

搞事情了!搞事情了!為慶賀世強元件電商上線兩周年，為回饋兩年來廣大工程師的支持與厚愛，世強元件電商特推出Keysight(是德科技)超給力的促銷活動!即日起，上世強元件電商采購Keysight示波器、電源、頻譜儀、電子負載。

2018-06-17 05:01:00

2720

一文看懂AI算法的秘密

這篇文章的主角是 AlphaGo ，谷歌DeepMind團隊開發(fā)出的圍棋AI 。其憑借著2016年擊敗全球頂尖棋手李世石的壯舉而廣受矚目。下面就隨網(wǎng)絡(luò)通信小編一起來了解一下相關(guān)內(nèi)容吧。圍棋是一種

2018-03-25 10:03:00

10814

柯潔對弈國產(chǎn)AI“星陣” 機器真的算無遺策？

下出不一樣的圍棋，如下出優(yōu)勢下不退讓的圍棋對局、進行任意棋盤路數(shù)的對局甚至可以進行任意貼目數(shù)的對局等，這些都超越了AlphaGo的架構(gòu)。

2018-05-29 08:15:00

578

小米推出8周年紀念版手機

小米官方在微博宣布將在深圳舉辦新品發(fā)布會，據(jù)知情人士爆料，此次小米將在發(fā)布會上推出小米8周年紀念版手機。

2018-05-16 14:05:00

1131

繼蘋果3D結(jié)構(gòu)光技術(shù)：小米8周年紀念版手機曝光

微博上爆料了一張據(jù)說是小米手機3D結(jié)構(gòu)光模組的照片，從照片中我們看出，這款手機采用了和iPhone類似的劉海屏幕設(shè)計，據(jù)推測很有可能就是小米即將在本月底推出的小米8 周年紀念版手機。3D結(jié)構(gòu)光技術(shù)應(yīng)用在手機上，之前只有iPhone X有類似的功能，這對安卓陣營來講還尚屬首次。

2018-05-20 02:59:02

5295

韓國洪性志對局使用AI作弊勝柯潔

韓國棋院排名第20位的洪性志九段（31歲）最近被質(zhì)疑網(wǎng)絡(luò)對局中使用人工智能圍棋程序（AI）。

2018-06-22 10:41:02

3259

成立22周年，歐普如何成長為深受消費者信賴品牌？

2018年8月19日，歐普照明迎來上市兩周年。回看其成立以來的22年時間，歐普照明始終堅持用專業(yè)的技術(shù)與產(chǎn)品，提供可靠、貼心的用戶體驗和服務(wù)，逐步成長為深受消費者信賴品牌。

2018-08-21 15:13:16

2955

為什么AlphaGo調(diào)參用貝葉斯優(yōu)化？手動調(diào)參需要8.3天

在應(yīng)用貝葉斯優(yōu)化之前，我們嘗試使用網(wǎng)格搜索來調(diào)整AlphaGo的超參數(shù)。具體來說，對于每個超參數(shù)，我們構(gòu)建了一個有效值網(wǎng)格，并在當(dāng)前版本v和固定基線v0之間運行自對弈。對于每個值，我們運行了1000局對局。

2018-12-22 09:57:01

4059

英特爾機器人中心培育智能機器人領(lǐng)域世界級企業(yè)

2019年1月17日，智能機器人全球創(chuàng)新交流會暨英特爾機器人創(chuàng)新中心兩周年慶活動在上海張江國際創(chuàng)新港成功舉辦。

2019-01-23 15:04:38

4154

盤點2019年25種最大的AI趨勢

圖像識別、自動駕駛、AI診療、訓(xùn)練算法......行業(yè)的秘密都在這兒了。

2019-02-19 09:22:27

4219

海信發(fā)布U8E 50周年紀念款超畫質(zhì)電視掀起視覺革命浪潮

今天，在公司成立50周年之際，上海AWE展前夕，海信在2019年集團大會上發(fā)布了U8E 50周年紀念款超畫質(zhì)電視新品。

2019-03-13 16:53:43

2680

小米8周年紀念版評測實打?qū)嵉钠炫炈?/a>

5月最后一天，小米發(fā)布了目前售價最低的搭載驍龍845處理器手機——小米8周年紀念版。

2019-04-03 11:19:06

2978

凌力爾特公司30周年紀念Video

凌力爾特公司30周年紀念Video_zh

2019-08-15 06:12:00

3253

50周年紀念版銳龍72700X已批量到貨

AMD即將迎來公司成立50周年紀念日（5月1日），這么重要的節(jié)點自然要搞點特色玩意兒出來，比如說紀念版的銳龍7 2700X就出現(xiàn)在了部分電商平臺上，另外藍寶還有個紀念版R5 590顯卡，技嘉則有個紀念版X470主板。

2019-04-22 14:48:08

760

50周年紀念版RadeonVII顯卡曝光整體采用紅色外觀

成立于1969年的AMD即將迎來50周歲生日，自然需要一些賀禮，除了自己的50周年紀念版銳龍7 2700X，廠商們也很捧場，藍寶石又黃金版的R9 590顯卡，技嘉則拿出了X470主板。

2019-04-24 10:32:11

2910

AMD50周年紀念版銳龍72700X的包裝盒與產(chǎn)品渲染圖曝光

AMD即將迎來公司成立50周年紀念日（5月1日），如此重要的紀念日AMD和各家OEM廠商都準備了幾款紀念版CPU和顯卡產(chǎn)品，其中以50周年紀念版銳龍7 2700X處理器最為受到關(guān)注。

2019-04-26 08:48:43

898

AMD50周年紀念版處理器和顯卡將于5月9日開啟第二輪搶購

4月29日，為慶祝公司成立50周年，AMD正式發(fā)布了銳龍7 2700X處理器、Radeon VII顯卡的50周年紀念版（國外稱之為Gold Edition），國內(nèi)也同步登場。

2019-05-07 09:18:56

774

AMD50周年紀念版銳龍72700X贈品公布送蘇媽親筆簽名

為慶祝公司成立50周年，AMD今天正式發(fā)布了銳龍7 2700X處理器、Radeon VII顯卡的50周年紀念版（國外稱之為Gold Edition），國內(nèi)也同步登場。

2019-04-30 14:34:51

1163

AMD即將迎來50周年紀念日,50周年紀念版銳龍72700X處理器頗受關(guān)注

5月1日就是AMD的50周年紀念日了，如此重要的紀念日AMD和各家OEM廠商都準備了幾款紀念版CPU和顯卡產(chǎn)品，其中以50周年紀念版銳龍72700X處理器最為受到關(guān)注。

2019-04-30 11:28:12

3358

華碩ZenFone6 30周年紀念版發(fā)布全球限量3000臺

5月28日消息，華碩在中國臺灣舉行的Computex 2019展會上發(fā)布了ZenFone 6 30周年紀念版“ZenFone 6 Edition 30”，全球限量發(fā)售3000臺。

2019-05-28 09:46:08

3223

AMD的50周年紀念版活動第四輪開啟

今年5月1日是AMD公司成立50周年紀念日，50年來AMD公司給大家貢獻了大量物美價廉的處理器、顯卡等產(chǎn)品，沒有AMD的話這個世界是不可想象的。為了紀念這個光榮的時刻，AMD從4月底開始推出了多種慶典活動，推出了50周年紀念版的銳龍7 2700X處理器及Radeon VII顯卡。

2019-05-21 15:01:19

674

曝RX5700XT50周年紀念版是由RadeonRX690限量版改名而來

再過兩周多點時間，AMD的RX 5700 XT系列顯卡就要上市了，基于7nm Navi架構(gòu)的新一代顯卡共有RX 5700、RX 5700 XT及RX 5700 XT 50周年紀念版3個型號，售價分別是2999、3599及3999元。

2019-06-22 10:12:50

7740

AMD官方澄清RX5700XT50周年紀念版顯卡限地區(qū)發(fā)售的情況

在AMD發(fā)布的三款RX 5700系列顯卡中，RX 5700 XT及RX 5700 XT 50周年紀念版外觀、設(shè)計都是一樣的，主要是頻率區(qū)別，RX 5700 XT 50周年紀念版加速頻率可達1980MHz，高了75MHz，同時售價貴了400塊錢，不過多了蘇媽親筆簽名。

2019-06-22 10:09:27

3027

京瓷創(chuàng)立60周年紀念活動丨創(chuàng)始人稻盛和夫出席

2019-07-02 15:15:12

4122

BLEMesh兩周年，終迎來萬億商用市場

距離2017年7月19日，藍牙技術(shù)聯(lián)盟（SIG）宣布全面支持Mesh網(wǎng)絡(luò)，即將滿兩周年，兩年過去，作為新一代兼具低功耗和高承載量的藍牙通訊技術(shù)，BleMesh正受到越來越多廠商的追捧。例如，今年

2019-07-03 22:23:28

692

AMD50周年紀念版銳龍7 2700評測性價比無敵

今年是AMD公司成立50周年紀念，為了紀念這個日子，AMD推出了一系列的優(yōu)惠促銷活動，目前銳龍2000系列處理器已經(jīng)來到了歷史最低的價位，比如銳龍7 2700目前官方報價僅為1799元，在電商平臺，如果玩家耐心尋找，還能找到價格更低的盒裝正品銳龍7 2700處理器。

2019-07-04 15:16:29

8603

區(qū)塊鏈開發(fā)的BCH基礎(chǔ)設(shè)施兩年來的發(fā)展歷程介紹

還有不到兩周時間，全世界的BCH粉絲將慶祝2017年8月1日的分叉兩周年紀念日。比特幣現(xiàn)金（BCH）分叉至今，總共經(jīng)歷了四次升級。BCH開發(fā)人員還計劃在今年11月升級該鏈，在2019年8月15日功能

2019-07-23 10:04:51

887

聯(lián)通混改兩周年，行業(yè)改變了什么？

混改完成后，聯(lián)通集團對中國聯(lián)通的持股比例從原來的62.7%降低到36.7%，失去了持股50%以上的絕對控股地位。戰(zhàn)略投資者占股35.2%，員工持股2.6%，公眾股東25.5%。

2019-12-11 15:03:12

14120

DeepMind宣布將研發(fā)更智能的AlphaGo算法

韓國棋院宣布，李世石九段辭去職業(yè)棋手職務(wù)，正式宣布退役。在與AlphaGo的第一次人機大戰(zhàn)當(dāng)中，李世石神奇的一挖，成就了人類與AlphaGo唯一的勝局。

2020-05-19 15:22:28

825

國鐵吉訊：兩周年再出發(fā)，讓鐵路出行更美好！

2018年7月5日，國鐵吉訊科技有限公司(簡稱國鐵吉訊)揭牌成立。肩負著讓鐵路出行更美好的使命，國鐵吉訊集成和發(fā)揮國鐵集團、吉利控股和騰訊科技的資源和優(yōu)勢，創(chuàng)新技術(shù)手段與產(chǎn)品服務(wù)，開啟了高鐵網(wǎng)與互聯(lián)網(wǎng)雙網(wǎng)融合的新篇章。兩年來，國鐵吉訊開拓了掌上高鐵2+8業(yè)務(wù)線，通過行程服務(wù)、高鐵餐飲、高鐵影院、極速出行等一系列智慧化服務(wù)，改變著人們的高鐵出行方式;同時，國鐵吉訊初步形成了掌上高鐵、金鹿OS、微滿LaaS為發(fā)展方向的業(yè)務(wù)格局

2020-07-07 11:24:50

778

孟晚舟最新消息今天華為對孟晚舟事件發(fā)聲孟晚舟被捕兩周年

孟晚舟被捕兩周年之際，華為對孟晚舟事件發(fā)聲：堅信孟晚舟清白，將繼續(xù)支持其尋求正義和自由。同時外交部也再次敦促加拿大立即糾正錯誤，釋放孟晚舟平安回到祖國。今日（12月1日），時值華為CFO孟晚舟被捕

2020-12-01 16:12:08

17771

獨家消息：華春瑩談孟晚舟被捕兩周年

今日（12月1日），時值華為CFO孟晚舟被捕兩周年，華為加拿大公司在社交媒體對孟晚舟事件發(fā)聲：“華為仍然堅信孟女士是清白的，并相信加拿大的司法體系也會得出同樣的結(jié)論。鑒于此，華為將繼續(xù)支持孟女士尋求正義和自由。”

2020-12-01 16:21:27

14104

華為表示將繼續(xù)支持孟晚舟尋求正義和自由

12月1日晚間消息（蔣均牧）在華為副董事長、首席財務(wù)官孟晚舟被“軟禁”在加拿大兩周年之際，華為加拿大公司在社交媒體上發(fā)布聲明，表示將繼續(xù)支持孟女士尋求正義和自由。

2020-12-02 10:43:00

1505

iQOO兩周年來襲！上天貓超來電享多重福利

從成立至今，iQOO已經(jīng)陪伴廣大用戶走過了兩年多的時間。在這兩年多的時間里，iQOO打造出了許多使用體驗優(yōu)秀的手機產(chǎn)品，得到了眾多消費者的認可與喜愛。如今正值iQOO成立兩周年之際，iQOO聯(lián)合

2021-04-18 09:00:10

1265

物聯(lián)網(wǎng)快速發(fā)展,手機通信迎新時代

轉(zhuǎn)眼間，5G發(fā)牌已經(jīng)過去兩周年。2019年，工信部向我國四大運營商正式頒發(fā)了商用5G的牌照，隨后來勢洶洶的5G網(wǎng)絡(luò)建設(shè)就陸續(xù)展開部署。

2021-06-17 09:12:47

474

基于秘密共享的同態(tài)加密圖像信息隱藏算法

2021-07-02 14:48:22

PCB Fanmade 7周年紀念徽章

電子發(fā)燒友網(wǎng)站提供《PCB Fanmade 7周年紀念徽章.zip》資料免費下載

2022-07-21 10:12:00

PCBWay 7周年紀念徽章開源分享

電子發(fā)燒友網(wǎng)站提供《PCBWay 7周年紀念徽章開源分享.zip》資料免費下載

2022-07-22 15:53:48

PCBWay 7周年紀念徽章第二版設(shè)計

電子發(fā)燒友網(wǎng)站提供《PCBWay 7周年紀念徽章第二版設(shè)計.zip》資料免費下載

2022-07-22 09:55:44

PCB制作的5周年紀念徽章

電子發(fā)燒友網(wǎng)站提供《PCB制作的5周年紀念徽章.zip》資料免費下載

2022-08-16 10:19:56

賀利氏電子慶祝新加坡先進封裝卓越中心成立兩周年

新加坡，2022年12月2日賀利氏電子舉辦客戶活動，慶祝新加坡先進封裝卓越中心成立兩周年。該中心成立于2020年4月，一直是創(chuàng)新團隊和應(yīng)用團隊的辦公場所，旨在為先進封裝開發(fā)新產(chǎn)品和解

2022-12-13 10:31:41

562

成者CZUR十周年，智造辦公新未來

7月19日，國內(nèi)領(lǐng)先的智能辦公品牌成者CZUR迎來了公司創(chuàng)辦十周年紀念日，成者就此推出了一系列線上線下司慶活動。創(chuàng)業(yè)大不易，十年風(fēng)雨，成者始終在茁壯成長。2013年7月，成者CZUR由創(chuàng)始人

2023-07-19 14:57:26

368

ai算法和模型的區(qū)別

ai算法和模型的區(qū)別人工智能（AI）是當(dāng)今最熱門的技術(shù)領(lǐng)域之一。雖然AI被廣泛應(yīng)用于各種領(lǐng)域，但其核心是由算法和模型組成的。AI算法和模型是AI成功應(yīng)用的基礎(chǔ)。因此，理解AI算法和模型的區(qū)別

2023-08-08 17:35:39

2264

AI算法有哪些？

AI算法有哪些？隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用，越來越多的AI算法被發(fā)明和應(yīng)用于各個領(lǐng)域。本文將介紹一些常見難度較低但易于理解的AI算法，以及一些當(dāng)前比較流行的AI算法。一、基本的AI算法

2023-08-24 15:40:10

1641

影馳20周年紀念版星曜DDR5-7200 24GB內(nèi)存性能測試

影馳20周年紀念版星曜DDR5-7200 24GB內(nèi)存采用了海力士M-Die顆粒，其超頻潛力可與SK海力士的A-Die顆粒相媲美。即便頻率高達7200MHz，內(nèi)存時序依舊被壓制在36-46-46-116 CR2，電壓則是1.4V。

2023-12-21 15:53:31

120

Ignite China | 兩周后，來這里搶先看AI先行者們創(chuàng)造新增長

原文標題：Ignite China | 兩周后，來這里搶先看AI先行者們創(chuàng)造新增長文章出處：【微信公眾號：微軟科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

2023-12-27 12:20:02

196

AMD收購賽靈思兩周年之際，全新Embedded+進一步彰顯協(xié)同效應(yīng)

融合、AI推理方面進行卓越的升級，應(yīng)用于工業(yè)、醫(yī)療、智慧城市以及汽車等領(lǐng)域。 ? AMD工業(yè)、視覺、醫(yī)療與科學(xué)高級總監(jiān)Chetan Khona接受媒體采訪時說道，再過兩周將會是AMD收購賽靈思兩周年

2024-02-07 20:20:20

1921

韓國政府調(diào)查涉嫌違反對外貿(mào)易法的企業(yè)

美國商務(wù)部工業(yè)與安全局（BIS）最新公布消息，將93家公司納入“關(guān)注貿(mào)易商名單”，以此作為大型對俄制裁的一環(huán)，旨在祭奠制裁啟動兩周年。

2024-02-26 10:01:49

163

字節(jié)跳動被曝正秘密研發(fā)多個AI產(chǎn)品

據(jù)多位知情人士透露，科技巨頭字節(jié)跳動正在人工智能（AI）大模型領(lǐng)域秘密研發(fā)多個創(chuàng)新產(chǎn)品。其中，多模態(tài)數(shù)字人產(chǎn)品備受矚目，該產(chǎn)品將結(jié)合先進的AI技術(shù)與虛擬形象，為用戶提供全新的交互體驗。此外，字節(jié)跳動還在研發(fā)AI生圖、AI生視頻產(chǎn)品，這標志著公司在AI內(nèi)容生成領(lǐng)域邁出了重要步伐。

2024-03-05 11:22:05

339

已全部加載完成

搜索歷史

AlphaGo對局李世石兩周年紀：AI算法的秘密 - 全文

評論