人工智能分為幾個層面,首先是基礎層,要有大數據云計算,因為你數據量大的話,要放到云端去處理,大數據、云計算、GPU/FPGA等硬件加速、新形態神經網絡芯片等計算能力提供商。在技術層就是做機器學習、深度學習、增強學習等各種算法。應用層就是各種各樣的各方面的應用,智能廣告、智能診斷、自動寫作、身份識別、智能投資顧問、智能助理、無人車、機器人等場景應用。
講講到底什么是大數據,每天聽別人講數據的重要性,什么叫大數據?從數據定義上來講,如果說它是用傳統統計的方法處理結構化的數據量再大也不是大數據,大數據的概念應該是說它的來源是多元,它的結構是異構,是非結構化的數據,它整個數據量不僅僅是大,而且是雜亂無章,按照信息論來說,熵大,信息量非常大,這才是大數據。大數據里面最重要的是相關性和因果性,很多人包括一些科學家,有些匪夷所思,非常模糊的對于大數據挖掘相關性的神奇能力的表述,這是不對的,僅僅挖掘出相關性不夠,還要分析因果性,A推出B或者B推出A,或者AB互相推出。你僅僅利用數據分析計算出他們之間是相關的,他們之間有某種模糊的不確定的聯系是不夠的。
比如說A和B,你可以挖掘出來A和B具有某種相關性,這是不夠的。這種隱約的曖昧的相關性在關鍵的交易場景中,你是無法用它來做參考的。我需要在股票交易當中獲利,僅僅相關性是無法用股票交易算法做套利的。在做人工智能數據分析計算里面有很多種算法,我想說的是在很多種算法里面有的算法是在特定領域里面有用的,我先說一下算法,我的背景是計算理論邏輯的背景,我非常強調對于任何一個行業技術,從邏輯和理論根源的角度去分析挖掘里面的痛點。如果說你用機器學習或者神經元網絡,你能不能計算出歸納偏置,也就是bias,如果不能夠就意味著你的算法是無法獲知確定性的黑盒子算法,雖然你的算法有用但是你沒有辦法證明你的算法是正確的,只有貝葉斯統計才是能夠計算出歸納偏置的。科學的判斷標準是什么,貝葉斯里面還有另外一種分層貝葉斯,現在流行的深度學習是神經元網絡里面分成多層,貝葉斯網絡也可以屬于多層,而且因為貝葉斯網絡能夠用來挖掘數據背后隱含的關系,那么貝葉斯網絡可以做出一些深度學習做不了的事情。比如說大規模傳染病如SARS的傳播節點的挖掘,比如說像SARS,禽流感,如果從北京出發,中間經過了武漢、鄭州、濟南,但是有些城市的傳播節點從傳染病的統計信息圖和數據里面看是沒有的,這種情況下只有用分層貝葉斯網絡,可以挖掘出傳染病隱藏的傳播節點,可以挖掘出隱藏節點間的關系,而且可以挖掘出隱藏節點后面的下一層節點,根據傳染病統計的數據,只有用一種方法可以挖掘出隱含的關系和節點,其他的深度學習機器學習的方法全都不管用。
剛才說到概率圖,我們知道現在業界在自然語言理解的研究里面機器學習用得最好,就是它能用大量的數據來做機器翻譯,但是僅僅利用傳統的機器翻譯,傳統的這種統計學意義上的這種方法去尋找大規模數據上的對應關系,這是不夠的。學者們最新的研究引用概率圖計算去做自然語言理解和做機器學習,能夠取得更好的翻譯效果。
最近有一個著名的爭論,深度學習是在顛覆一切。意思是說有了深度學習什么都能干,這里面有另外的問題,煉金術好還是化學好,如果不能非常明確的確定證明它的結論正確性,不能夠證明它的結果的確定性,那么它就是一種煉金術,煉金術后面每一個元素是怎么反應的,它們反應的化學規律揭示清楚,這就是科學。什么叫科學,科學的唯一的判定標準就是確定性,是否具有確定性,如果說你發現某一條規律,繁雜無章的這種狀況面前,具有某種確定性,只有這種規律是確定的,你所發現的規律是真的科學的,如果說不確定,那就不是科學了。數據科學是否成立?現在大家都在熱炒,全世界都在炒作,大數據人工智能數據科學,如果說數據科學的判斷標準僅僅是用統計學的這種方法,無法確定正確性與否的方法來判斷的話,那就不是一個科學,他僅僅一個統計學結果,統計學在科學上來講,統計學并不被所有的學者認為是科學,因為它里面有隨機性。
我們現在說大數據小數據和零數據,現在很多公司宣傳說人工智能發展的關鍵是是否擁有大數據,這句話是錯的。我們擁有大數據就有大的優勢,沒有數據就無法發展人工智能,這句話是錯的。阿爾法零在規則確定信息完全的情況下,是不需要數據的。不需要任何數據,就可以去寫這個程序,在阿爾法狗開始研究的時候,系統需要用棋手對弈的大量歷史數據去學習,那是因為當時的研究者還沒有意識到這種場景下的道理,對于規則明確信息完全的這樣的博弈場景,比如說像圍棋、象棋,這里面不需要數據。有人說谷歌的阿爾法狗沒有什么了不起的,人的智慧學得更快,圍棋的維數一改變,谷歌的下棋程序就不能使用了,這是錯的,無論圍棋多少維,人工智能程序都應該可以自適應,應該可以完全戰勝人類沒有問題。在規則確定,信息不完全的情況下,像麻將,軍棋,德州撲克,信息不完全的情況下,人工智能程序處理是很難的,需要計算博弈的勝負的概率,比前面的圍棋難很多。我們在做人工智能研究的時候,要看具體的博弈場景,有的場景下即便沒有那么多的數據,只要我們搞清楚數據背后的原理,可以利用對抗性網絡讓系統自己生成數據,去在策略網絡和價值網絡上訓練。
很多人都忽悠說大數據是信息時代的石油,大數據是不是信息時代的石油?石油是不是可替代性的?如果說大數據在每一個場景都是必然的,需要的,那他就是石油,如果說很多應用場景不同的情況下,重要性不是一概而論的,那就不是信息時代的石油。小數據小樣本學習才是人工智能真正的重點,為什么?我們可以觀察嬰兒,嬰兒在學習新的知識的時候,他沒有通過大數據去學習,他很簡單的只要見過幾次就認識了,這就是小樣本學習。為什么人具有小樣本學習的能力,機器不具備這種小樣本的學習能力,這里面最根本的原因是人是經過幾十億年遺傳進化而來最高等的生物,人的生理結構,人的遺傳信息里面就包含了某些先天性的知識,而且人具有常識,具有對于自然界和社會的常識,常識才是人工智能發展的最核心和最根本的問題,也是人工智能發展最大的困難。怎么樣讓人工智能對常識獲得認識和理解?常識的構建,常識的范圍太廣了,我們對于整個社會,對于整個物理世界的所有認識,都叫做常識,也就意味著要想建立常識,終極來講對客觀世界包括物理世界和人類社會的所有知識整合起來,來建立這樣一個開放性的無所不包的知識模型。
開放性的問題就是如果說你要建立一個通用的人工智能對話機器人,我們往往發現答非所問,比如說像小冰,聊兩句之后,答非所問,不知所云。像機器人助手在行業應用里面,結合具體的行業知識去做機器人行業問答助手是比較好的。
最新的人工智能的科研方向就是把傳統的符號邏輯,我們稱之為符號主義,專家系統和規則系統跟連接主義,機器學習神經元網絡,把兩種方法結合起來去應用。比如說google deepmind研發的神經元網絡圖靈機,學習出來一個新的圖靈機,可以用來做簡單的推理,用于一些大數據里面的規則挖掘和推理有不錯的效果。再一個比如說有的朋友在做自然語言理解,就是讓機器理解人的語言,他們是把計算語言學規則系統與機器學習相結合,他們做得效果非常好。曾經有一個笑話說機器學習興起來后,計算語言學家就成了自然語言理解的發展障礙,開除一個就進步一些,計算語言學家是自然語言理解發展的障礙嗎?不對。計算語言學被拋棄了一段時間之后,當自然語言理解遇到瓶頸的時候,機器學習根自然語言學的規則系統結合起來,這是目前最新的研究趨勢和方向,取得了很好的效果。
機器人里面的眼睛是用機器視覺圖像處理,聽聲音回答用得是語音識別或者語音合成,機器人只有運動狀態控制是跟人工智能有關的,但是它是一個典型的機器證明問題,這里面機器人有很多的關節,要計算每個關節的狀態平衡態,是多元的非線性代數連續方程組,典型的機器證明問題,三角化后求解一個多項式解。所以大家如果認為機器人代表了人工智能那是錯的。
我們再來說一下深度學習和機器學習及控制系統之間的區別,這一輪人工智能火爆起來就是因為CNN用來處理人臉識別的圖象,CNN最早的是模擬貓的眼睛處理圖像的視覺相關部分的神經和大腦結構,它是天然的比較適合用來處理圖像。時序神經網絡RNN,因為交易類場景有下單和成交時序,適合于股票期貨交易算法,長短時神經元網絡族LSTMfamily,適用于語音識別,科大訊飛的核心語音識別算法就是屬于一個變形的LSTM算法。級聯隨機森林 cascade random forest,適合于決策,最高法和某大型國有科研機構合作的智慧司法項目去年底找到我們外包做人工智能模擬法官判案決策邏輯。量子熱力學模擬退火算法,它也不屬于深度學習,當我們在超級復雜的系統里面,想計算系統的狀態代價函數的全局最小點,這種特別復雜的情況下,有時候用梯度下降算法容易陷在局部最小點跳不出來,就要用這種算法。
輔助駕駛和自動駕駛中黑盒子算法的安全性問題。特斯拉最開始的時候,他的廣告宣傳片是自動駕駛,在迪拜,一個人坐上車后面的座位什么都不用管了,后來把廣告撤了,因為出了人命事故。你要讓車實現自動駕駛,圖象識別現在用的是黑箱子算法,沒有辦法去解答,圖象識別的每個層面,每層是什么意義,圖象識別的正確性如何,即便識別的精度很高也不知道什么時候失效,沒有辦法去確定圖像識別算法的正確性,只能說它是有用的有效的。還有一個方面,駕駛系統不僅僅是圖象識別系統,還是一個決策系統。比如說舉個例子,一個自動駕駛系統,駕駛員坐上去了,天然的駕駛系統就是要保護駕駛員。遇到一種場景,駕駛員坐在自動駕駛的車上,前面有緊急情況,車有一種選擇是撞上欄桿,車毀駕駛員受傷,還有一種選擇是前邊有一個高端人士,比如是一個高級學者,還有一個選擇是另外一邊站著幾個所謂的普通人,作為自動駕駛系統,他應該選擇撞誰或者選擇保護駕駛員嗎?這是決策系統的問題,需要在各種可能性之間進行博弈和決策,而生命是平等的。還有生命的神圣性問題,現有的自動駕駛系統里面,沒有辦法確定算法什么時候失效,某種情況下,即便概率很低,很有可能讓一個人坐在自動駕駛的車上出現交通事故,出了人命。即便自動駕駛降低了車禍的概率,這種概率很低,我們作為乘客把命運交給他們不確定正確與否的算法和系統手里,自動駕駛的乘客生命是可以確定性的被自動駕駛的安全或者不安全性隨機的失效,低概率但是確定性的剝奪他們的生命。誰賦予了這個權力,我們要看待自動駕駛的問題,它分為幾個等級,L1到L4。有單目、雙目輔助駕駛(adas),激光雷達,微波雷達,慣性導航儀的引入,這種情況下用它來做L3級別的自動駕駛,這是可行和靠譜的,如果做L4完全自動駕駛只能用于沒有人的港口,如果突然走出來一個行人,怎么決策,在復雜的路況下怎么做自動駕駛的決策,這種是目前的技術不能做到的。
人工智能可以做所有的事情嗎?在很多應用程序里面,它是什么樣的應用環境需要被考慮進去,很多時候是一個博弈場景。廣告算法中的博弈,比如說google,百度,exchange等廣告平臺,廣告主,用戶,代理商,第三方技術服務商的博弈。我們如果了解博弈中的均衡狀態,計算到均衡點,就可以進行有引導的納什均衡。量化交易算法中股票期貨外匯交易市場的博弈,比如說交易所,交易各方的博弈,算法對交易趨勢的預測,利用及擾動。這個算法引入了之后,算法引入的交易量大了,它把納什均衡破壞掉了,一個量化交易算法公開了被很多交易商使用之后,這個算法破壞了納什系統的狀態,而且對當前的交易趨勢進行了擾動,效果就不好了。
在政治里面,在經濟里面,也可以用到數據分析和引入博弈論。我們團隊做過一些競選的數據分析的探索。三年前我們新加坡的團隊為印度***莫迪的競選提供了一些數據分析服務,數據驅動的選舉是可以做分析可以做預測的,選舉數據在源源不斷的更新,但是對于政治博弈,人工智能無法確定它的結果。全球治理,國家治理,宏觀經濟模型中各項數據指標的內在關系和博弈,選舉,政治局勢的監測,分析,預測,這些都可以用到數據分析,而且每一個復雜系統都可以考慮博弈動力學,都是復雜的博弈系統,包含很多博弈子系統,一個復雜系統中每一個博弈子系統也會有平衡態,整個系統構成子博弈精煉納什均衡,系統的狀態會從一個舊的納什均衡,演進到新的納什均衡。但是數據驅動的選舉的預測分析有可行性,而隱規則驅動的政治結果預測只能判斷可能性而不能判斷結果的確定性。
人工智能里面發展最關鍵的部分是語義和知識圖譜,這個世界是否是可計算的?計算機科學、物理學、哲學能不能統一起來?圖像識別,語音識別,物體識別,自然語言處理,機器翻譯,社會問題,金融科技,算法交易等開放性問題,都需要知識圖譜和語義識別,知識圖譜是符號邏輯的碩果僅存與再發揚。圖像識別和語音識別達到了一定精度后要想再進步1%都很難,因為進一步的識別需要判斷語義。基于實體及關系的知識圖譜的構建,要考慮到語義在高階邏輯上的不可判定性,在高級邏輯上語義是不可判定的,而且很久之前哥德爾不完全定理就證明了人類用的計算機,其根本是一個演繹邏輯系統,是有缺陷的。很多計算問題都是NP問題,NP=P?問題的多項式時間內的可計算性研究,及Karp 21類典型NPC問題的多項式時間轉化和等價,這些計算理論問題,需要歸納邏輯與演繹邏輯結合,對于邏輯系統進行補充和統一。
在自然界有概率,有隨機性,但是也有概率分布,有概率密度分布,統計學有概率的隨機性,而概率密度分布是研究這種隨機分布的確定性的。人工智能在計算狀態方程的時候有概率密度分布PDF函數,在計算理論和密碼學理論里面,有計算NPC的多項式時間求解中概率密度分布函數的應用。量子物理中多量子體間作用的波函數與人工智能算法中張量網絡有對應關系。人類知識系統與物理世界的語言描述和邏輯要統一,如果說你要建一個通用的完美的人工智能,你就要解決這個問題。哲學上的休謨問題,你能否用一些基本的原理來推導出社會上一切問題的道德性和正確性的判定?如果我們建立完美的人工智能,也就意味著我們要了解所有知識和邏輯,做到符號,代數,計算的統一,這個意義上來講,科學的發展最終要反哺哲學。
量子計算機和人工智能沒有任何關系。有人說量子計算機的量子算法可以很快破解RSA加密帶來了驚恐,但是這個僅僅在理論上有奇效,實際不可行。因為它需要非常多,無窮無盡的量子位來實現,但是量子位的增加是很難的工作。跟傳統計算機的比特位的增加不一樣,量子位的擴展對于量子態的測量和容錯,糾錯的難度是指數型增長,位數越多,糾錯難度越大。量子計算機當前最新研究進展是十幾個量子位。當前各大公司所有公布的經典量子計算機都是量子模擬,都不是真實的實現,Google支持的Dwave是非經典量子計算機,真正有前景的是量子熱力學模擬退火,真正有前景的就是這種,包括日本有一個基于Ising模型研發的非經典量子計算機,Ising模型里面出過兩個諾貝爾獎的獲得者,如果誰能夠計算三維Ising模型就能夠再獲得一個諾貝爾獎。用Ising模型在常溫下就可以做量子熱力學模擬退火芯片。量子模擬退火可以用于人工智能的組合優化,機器學習中狀態方程的計算與量子模擬退火計算機結合的核心是添加隨機數生成器和數據的交互傳輸。
我們公司各方面發展還行,現在最高的日收入是接近100萬美金,量化廣告,量化金融,金融科技我們也做了不少研發,我們是某個全國性股份制商業銀行的智慧銀行的項目主要開發者,包括反欺詐、大數據、企業風控和個人風控,企業授信,個人授信都是我們做的,我們在智能司法里做的最核心的就是人工智能模擬法官判案,中國的法律規定量刑范圍有一些互相沖突的條款,在各個地方規定也有一些不一樣,過去的判案案例里面有可能受到某些因素影響或者主審法官個人對法律的理解不到位,包括量刑范圍和立功減刑。如果僅僅把歷史上的案件統計一下根據統計規律指導法官進行新的判案是不靠譜的。我們也參與其他的事情比較多。今天的分享,主要是希望引起對于人工智能和大數據基礎理論和原創性技術研究的關注。謝謝大家!
-
人工智能
+關注
關注
1791文章
46872瀏覽量
237593
原文標題:匯真科技李利鵬 :人工智能的應用邊界
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論