人工智能時代的預測之術可以干嘛

預測對經濟和社會極其重要。金融、醫療、政治以及反恐、自然災害預防等等領域，預測都有著不可替代的作用。然而，此前的研究表明，即便是最頂級的專家，在預測能力上也不一定比隨機概率更好。德勤7月26日發表最新報告，認為大數據和AI會從根本上改變人類的預測規則，帶來更好的預測能力，從而為企業帶來豐厚的利潤。文章也強調，人工智能時代下的預測呼喚新的人機合作方式，也更需要“群體智能”。

智能機器時代，人類的判斷力

時下，商業和知識體系中的兩大主要趨勢為在復雜且快速變化的世界中進行預測提供了互補性的洞見。一個是，過去40年間，心理學概率推理領域行為科學的研究揭示了一個驚人的發現：人們日常的判斷和預測很大程度上都是基于系統性的、帶有偏見的心理暗示，而不是根據證據進行謹慎的評估。這些發現為決策研究帶來了根本性的啟示，從日常活動（物色棒球手和簽訂保險合同）到戰略（預測時間、價格和項目或商業創意的成功概率），再到生存（評估安全系數和恐怖襲擊風險）。

其基本要義是：單獨的判斷對行動的指導是不可依賴的。心理學家Philip Tetlock曾花費多年時間做過一個著名的實驗，其中頂級的記者、歷史學家和政治專家在預測政治事件，比如革命和政變上，并沒有比隨機選擇的普通人擁有更高的準確率。

第二個趨勢是數據驅動的決策和人工智能應用變得越來越無所不在。同樣的，這一次重要的經驗也是來自行為科學研究。早在20世紀50年代，一個研究小組就已經證明：即使一個簡單的預測模型，在預測和決策方面的表現都比人類專家要更好。這帶來的啟示是，合理建造的預測模型通過幫助人類避開常見的認知陷阱能增強人類智能。當下，在招募棒球隊員（以及其他類型職業）、簽訂銀行貸款和保險合同、對搶救室的病人進行分類、安排事業單位工作人員、確定安全系數和評估電影劇本等方面，預測模型已經得到了常規的應用。“點石成金”（Moneyball for X）的例子正在變得越來越多。

最近，大數據的興起和人工智能的復興讓人類與機器能力的對比更加突出，也引起了更多的擔憂。網絡上規模數據庫可用性提高，讓工程師和數據科學家得以訓練能夠完成文本翻譯、贏得游戲競賽、分辨照片中的人臉、識別語音、操作無人機和無人車的機器學習算法。由此產生的經濟和社會影響是深刻而普遍的。最近，世界經濟論壇（WEF）的一份報告預測，接下來的4年中，AI驅動的自動化和機器人將會減少超過500萬個工作崗位。

那么，預測本身會怎么樣？會有一天，計算機算法會代替做預測的這些專家嗎？研究這一問題要聚焦于預測的兩個本質——數據科學和人類判斷，并且，二者是相互作用的，此外，還要關注機器智能的局限。

這里有好消息也有壞消息（取決于你的觀點）。壞消息是：算法的預測有自身的局限，基于機器學習的AI方法不會完勝；人類的判斷在短期內不會被自動地拋棄。好消息是，心理學領域和群體智慧現在提供了新的方法來對人類的判斷進行改善和去偏見化。算法可以增強人類的判斷，但是不會全盤替代。同時，訓練人們如何更好地作預測以及把所有的判斷、匯集專家團隊的零散信息進行綜合，現在仍能達到更好的準確率。

比如，我們預測你不會讀到這就停下來。

當算法優于專家

雖然這一話題最近才變得火熱，但是，早在20世紀50年代，心理學學術專家的研究已經發現，計算機算法在判斷上是強過主觀的人類的。“臨床預測 VS 統計預測”領域由心理學家Paul Meehl開創，他出版了一本“令人不安的小書”（他自己對書的稱呼）。記錄了20個研究案例，這些案例對著名人類專家和簡單的預測算法在預測上的對比，其中包括預測精神分裂患者會對電擊療法作何反應、一名學生在大學里成功的可能性等等。Meehl的研究發現，20個案例中，人類專家預測的準確率被基于觀測數據的簡單算法全面超越。后續的研究更加壓倒性地證明了Meehl的發現：有超過200個案例對專家和算法的預測進行了對比，數據算法幾乎一直都比單獨的人類判斷要好。有少數幾個例子中，機器比人類表現得差，但是二者的準確度非常接近。

認知科學家Richard Nisbett 和 Lee Ross在評價中直言：“人類的判斷可不僅是比不上優秀的回歸方程式，甚至是比不上所有的回歸方程式”。

Daniel Kahneman 在《Think，Fast and Slow》中進行了深入的總結，對這些令人驚訝的發現進行解釋。Kahneman的書提到了人類推理理論“雙重認知過程”（dual process），在這兒，優秀的認知系統支撐起人類的判斷。系統 1 （Thinking fast）是自動化的和不用太多努力的，傾向于支持狹義的連貫故事，而不是基于證據的謹慎評價。系統2 （Think slow）是精細的、費力的，專注邏輯和統計學的連續證據分析。我們人類的思維本質上大多數時間都是在系統1中運行的，從整體上看，這已經足夠了，因為我們每天都要做幾百個決策。完全依賴于時間和能量消耗的系統2類的深思熟慮會讓人產生決策癱瘓。但是，這只是Kahneman、Amos Tversky 和其他后續者研究工作中發現幾點之一。從統計學上看，系統1的思維模式是非常糟糕的。

他們的主要的發現是，許多加入到系統1思維中的心理“經驗法則”（啟發式）是帶有系統性偏見的，其方式也是常常令人驚訝的。我們對于個人經驗太一概而論了，好像之前的經驗是我們解決眼前的難題唯一可用的信息一樣：把可能性的評估基于自己對相關場景進行想象的難度、不重視選擇的風險，選擇那些我們情感上已經做出預先判斷的，并且，從整體上高估了我們的能力和判斷的精準度。

很難評估這些研究在實際的商業上帶來的影響。所有的商業、醫療和公共服務中，決策都是核心環節。天然上存在偏見的系統1類型的決策占據主導地位，導致了長期的無效市場（即便有時候股價會很高），這也帶來了啟示：即便是不完美的預測模型和其他類型的數據產品，都能在利潤、安全和效率上帶來實質的提升。

一個非常實際的提醒是，對于高利潤的商業分析創意來說，完美數據或大數據并不是一個先決條件。這一邏輯幾乎被運用到了所有的領域，在那些地方，人類專家通過主觀地權衡本可以量化和數據化的分析證據，在穩定的環境中反復做決策。這在《點石成金》這本書及電影中都有體現。由于系統1類的決策是統計學上是如此弱，通常，使用即便是受限的或者不完美的數據，來對決策進行去偏見化，就能獲得巨大的經濟利益。

雖然這一邏輯在心理學學術研究中已經擁有超過半世紀的基礎，在商業世界中也變得非常常見，特別是《點石成金》出現以后，不過，它至今還沒有獲得全世界的擁護。比如，考慮到Michael Lewis的書從本質上看是關于數據驅動的雇傭決策，可能有點諷刺的是，在大多數的機構中，雇傭決策仍然普遍地受到主觀印象的影響，這些印象來自非正式的求職面試，雖然有大量的研究已經證明了這些面試的局限性。

雖然即便簡單的算法在大體上都要好過單個專家的判斷，但處于以下幾個原因，它們不會“讓人類被代替”：第一，領域內的專家（人事經理、銀行貸款或者保險承銷人、物理學家、詐騙調查員、公共事業工作人員等等）是最好的信息來源。而且，數據特征一般不會自發地出現在數據庫中。數據科學家必須把它們進行編碼，用于分析，這一過程一般需要聽取領域專家和終端用戶的建議。第二，專家的判斷必須對于決定哪一個歷史數據對未來的數據分析會更有用，是必須的。

統計學家 Rob Hyndman擴展了這幾點，提出了要建立一個成功的預測模型必須要滿足的四個關鍵的預測要素：

我們理解并能衡量原因

有大量可用的歷史數據

預測本身不會影響要預測的事

從某種程度上看，未來于過去有一定的相似度

例如，標準的電力需求和天氣的預測就滿足了上面四個標準，但是，要預測股價時，我們就沒有達到第二條。對這四個原則的評估，要求人類的判斷，而這是任何技術都不能自動化的。

最后，即使建立了模型并進行了部署，不同情況下，模型的預測的可用性上，人類的判斷也還是有必要的。畢竟，模型并不是萬能的，除了把得到的信息組合以外，它們干不了其它的事。想象Meehl提出的“斷腿問題”：假設數據模型預測，Jim有90%的可能性會在明天晚上去看電影。雖然模型在總體上比人類準確度更高，但是人類預測專家Nikhil知道Jim周末發生意外，腿折了。在這樣的情況下，Nikhil 就不會被采用模型的預測，然后建議電影院經理最好不要給Jim保留位置。

這種情況在實際生活中用得很多，也是為什么模型能夠引導而不是替代人類專家的主要原因。總的說來，等式應該是專家+算法》專家，而不是算法》專家。

當然，這幾個規則都是大數據和時下的人工智能出現之前指定的。它們會很快過時嗎？

計算機還不能做什么

物聯網傳感器源源不斷產生的數據、云計算以及機器學習的發展，引起了人工智能的復興。而人工智能將有可能重塑人與計算機的關系。有句話說得好——數據是新的石油。計算機科學家Jon Kleinberg對此評論說，“這個詞本身是含糊的，但是它指代的事情是真的……大數據指的是將會改變一切事物的過程。”

一個基于大數據和機器學習的典型AI應用就是谷歌翻譯。谷歌翻譯工具的開發，不是將語言的基本規則編碼為計算機算法，而是從無數先前翻譯的文檔中提取詞語的關聯。隨著訓練該算法的文本語料庫的增長，該算法也得到不斷的改進。在他們的影響力的文章“數據的有效性不合理，”谷歌的研究員Alon Halevy、Peter Norvig和Fernando Pereira在他們頗具影響力的論文“The unreasonable effectiveness of data”中評論道：

簡單的模型和大量的數據總是勝過基于較少數據的復雜的模型……目前，統計翻譯模型主要包括大量的記憶短語表，這些短語表給出具體的源語言和目標語言短語之間的可能映射。

他們的評論也與近年來公布的在AI取得的突破相關。計算機科學家 Kris Hammond說：“AI的核心技術并沒有發生重大改變，現在的核心技術幾乎與多年前的一樣。昔日的技術達不到要求，不是因為設計不足，而是因為尚未具備所需的基礎和環境。”總之，AI過去與現在的最大區別是，必須的計算能力、原始數據和處理速度現在都有了，因此AI技術現在能大放異彩。

過去與現在共同的一個主題是，將模式識別技術應用于用戶生成內容的海量數據庫。拼寫檢查工具是在用戶自我更正的海量數據庫中訓練的；能識別照片中人臉的深度學習算法是在數以百萬計的數字化存儲照片中訓練的；擊敗了《危險邊緣》游戲節目的冠軍Ken Jennings和 Brad Rutter的計算機系統整合了大量適用于數字存儲文本的信息檢索算法。認知科學家Gary Marcus指出，最后一個應用之所以是可行的，那是因為回答《危險邊緣》出的題目的大多數知識都被電子存儲于其中。維基百科上說：“這主要是在數據檢索上的運用，而大數據非常適合這一用途。”

這些發展數量之多、速度之快已經引起一些人的推測——我們即將進入一個新時代，那時機器的智能將超過人類的智能。雖然這個話題很大，但是我們需要弄清楚“智能”的本質。如今的大數據和機器學習使得“智能”成為可能。AI的標準定義是“能夠完成通常由人類完成的任務的機器”。注意，這個定義適用于較為熟悉的數據科學應用（比如，能夠自動承保貸款或簽立簡單的保險合同的評分模型）、能夠進行語音翻譯和標記照片的算法，以及自動駕駛汽車。

還有一件事也很突出：所有已經發明的AI技術，以及預計在未來有可能出現的，都是狹義的AI。例如，旨在翻譯文件的算法將無法標記照片，反之亦然。而二者都不能用于駕駛汽車。這與Marvin Minsky、HerbertSimon等AI界先驅的最初目標不同。他們想要制造通用AI：能像人類一樣理解的計算機系統。令人印象深刻的是，如今的AI技術在概念上更接近于信用評分算法，而非《2001太空漫游》中的超級電腦HAL9000或是由《機械姬》里有自我意識的機器人Ava。我們現在見到的都是狹隘AI。

回到本文的問題：預測一下，大數據和AI會從根本上改變規則還是會使人類的判斷過時？預測非常重要，它曾在2014年促使人們重新評估大數據的價值。一些分析家將谷歌流感趨勢（GFT）作為大數據取代傳統科學方法和數據分析的一個絕佳例子。當時的想法是，谷歌可以利用人們與流感有關的搜索，實時追蹤流感爆發。這似乎能支持Chris Anderson，、Kenneth Cukier、 Viktor Mayer-Sch?nberger等專家的觀點。他們聲稱，當獲得的數據足夠多時，“相關性就足夠了”，從而傳統的分析形式可以被尋找相關性的計算機算法取代。然而，在2013年流感季節時，GFT的預言被證明極其不準確，大約有140％的誤差。分析家們開始質疑他們的模型。計算社會科學家David Lazer及其聯合作者發表了一篇被廣泛引用的分析文章，從兩方面分析該算法最終失敗的原因。

算法動力學

谷歌一直在調整搜索引擎以提高搜索結果和用戶體驗。然而，GFT假設，搜索詞條與外部事件之間的關系是靜態的。在Rob Hyndman的話來說，這違反了“未來很大程度上重復過去這一假設”。

大數據的傲慢

通過在疾病控制和預防中心（CDC）的數據與數百萬計的搜索詞條之間建立相關性，GFT違反了Hyndman的四個可預測性關鍵因素中的第一個也是最重要的一個因素：了解數據關系背后的偶然因素。由于存在隨機可能性，結果出現過多的虛假相關性。雖然這是在數據科學所有分支中的一個關注焦點，這一事件說明隱性假設的本質是不可靠的，它使大數據忽視了傳統數據分析的形式的必要。

Lazer團隊從此次失敗中得到的教訓不是說社交媒體的數據對于預測疾病爆發是無用的。教訓是，大數據和機器學習算法應該被視為對人類判斷和傳統分析形式的補充，而非替代。

Philip Tetlock與Dan Gardner共同撰寫了In Superforecasting： The Art and Science of Prediction，討論以大數據為基礎的AI技術無法取代人的判斷。Tetlock報告了他與David Ferrucci的談話，Ferrucci領導工程團隊開發了在《危險邊緣》游戲中獲勝的Watson系統。Tetlock提出了2個問題：

1. 哪兩位俄羅斯領導人在過去十年交換了工作？

2. 兩位俄羅斯最高領導人會在10年后交換工作嗎？

Tetlock指出，第一個問題考的是歷史事實，許多在線文檔都有電子記，計算機算法可以使用模式識別技術找出答案。第二個問題需要猜測普京的意圖和俄羅斯政治的動態。Ferrucci對于計算機算法能在不確定的條件自動化這種判斷形式表示懷疑。隨著數據量的增加和機器學習方法的不斷改進，模式識別應用將更好地模仿人類的推理過程，但Ferrucci說，模仿和表達意義、產生意義是不同的。Tetlock說，二者之間的差距有待人類判斷來補充。

數據越來越多，統計方法也在進化，但是最終的結果也不會讓Paul Meehl感到驚訝。的確，計算機可以自動化某些傳統上只能由人類完成的任務。比如，信用評分在很大程度上替代了銀行信貸員的角色。但更普遍的是，計算機只能協助而不是取代人類在不確定的條件下做出

這就是說，人類與計算機合作的性質很有可能發生變化。Tetlock引用“自由國際象棋”作為人機合作的典型例子，我們在未來可能會看到更多這樣的例子。Garry Kasparov（被IBM深藍計算機在在1996年擊敗）對2005年的自由國際象棋的討論就很好地說明了這種合作的可能性。Kasparov說：

比賽結束時出現了驚喜。獲勝者不是使用一臺最先進計算機的大師，而是同時使用三臺計算機的一對美國業余棋手。他們操縱和“訓練”計算機的技能能夠抗衡大師級別的對手具備的高超棋藝，以及其他參賽者更加強大的計算能力。能力弱的人+機器+較好的過程要勝過一臺強大的計算機，而且，更勝過能力強的人+機器+較差的過程。

群體智能

因而，人機結合是提高我們在不確定性環境下做預測和判斷的能力的主要方式。另一種方法是，改善判斷過程本身。這是群體智能（collective intelligence）的一個越發突出的研究主題。簡而言之，群體在搜集零散信息，以做出更好的判斷和決策上，比群體內的任何個人都要好。

預測市場是混合式預測的一個例子。預測市場的邏輯反映了經濟學家哈耶克的觀點：市場機制的主要功能不在于促進買賣，而是從個體搜集和綜合信息。

比如， Hollywood Stock Exchange是一個線上預測市場，人們使用虛擬貨幣來購買和銷售與電影相關的股票，它能以92%的準確率預測出每年的奧斯卡獎。Information Aggregation Mechanism （IAM）是一個更加商業化的例子，由Caltech和惠普研究團隊聯合開發，其目標是通過搜集“已有的個人的意見或者直覺類的細碎信息”來預測銷售量。在惠普幾個商業團隊采用了IAM后，其預測準確率超過了惠普官方的預測。

當然，和金融市場一樣，預測市場也是不穩定的。比如，經濟學家Justin Wolfers 紀錄了谷歌預測市場的偏見，發現“在谷歌的股價上漲的時候，樂觀的預測會更加突出”，并且，員工間的預測有高度相關，他們平時都坐得很近。

總之，利用高度組織化的智慧，能帶來判斷和預測力的提升。

由RAND公司在冷戰期間發展的Delphi方法，被用于預測軍事場景。Delphi是一個反復的思考過程，促使群體成員達成一個單一的預測。第一輪由各組員匿名提交自己個人的預測。第二輪，在第一輪預測的兩個四分點內的結果中，由各組員再次選擇并作修正，這個過程一直進行，直到得出一個統一的預測。現在，產業、政治和醫療領域都已經證明了這種預測方法的價值。

總之，利用高度組織化的智慧，能帶來判斷和預測力的提升。2011年，著名管理學家Philip Tetlock與人共同發起了Good Judgement Project（GJP），該項目受 Intelligence Advanced Research Projects Activity（IARPA）資助，IARPA 專門投資高回報、高風險的研究項目。GJP專門預測中級緊急的事件，比如，希臘會退出歐元區嗎？

Tetlock和他的團隊發現：a）一些人在預測水平上一直都好于平均水平；b）這些人都有突出的心理特征；c）教育和實踐能提高人們的預測能力。Tetlock稱，僅通過GJP的小冊子的訓練，就能將個人的預測能力提升10%左右。

GJP每年都會選出前2%的超級預測者，這些人有一些共同的特點，就是從“外部視角”而非“內部視角作預測”。除了建立在堅實的數據基礎上這一特質外，Tetlock還總結了超級預測家的一些共性：

不迷信，更相信概率論

開放，對新的證據保持歡迎

知識水平高

謙虛，愿意承認錯誤并修改

對數字敏感

群體的預測水平可以在人事、并購、戰略評估、風險管理、保險等方面等得到應用。而提高群體預測能力，帶來的好處也是顯而易見的。

人類仍將是“決策過程中的一部分”

雖然預測模型和其他AI應用能使一些任務變得自動化，但人類判斷全部交由算法負責這種情況幾乎不可能發生。更現實的方法是，使用數據科學和心理學不斷完善并提升人類的判斷質量。當數據十分充足，而世界的有關方面變化也相對較慢時，依靠統計學的方法進行決策是恰當且合理的。當沒有數據或擁有的數據十分有限時，采用群體智慧和其他心理學方法能夠更好地進行決策。

舉例來說，谷歌——一家建立在大數據和AI之上的公司——使用“群體智慧”和其他統計方法提升招聘員工的決策，其蘊含的道理也是“輔助人類決策者，而非取代他們”。

在愈發涉及海量數據的情況下，“智能”AI應用將把日程工作自動化，從而空出更多時間讓人類專家專注于需要他們專業判斷的工作，以及從事社會認知（social perception）和共情等非認識能力的行動。深度學習模型有可能讓醫療成像的某些過程自動化，這將使醫護人員有更多時間集中精力完成抽象的醫療問題，圍繞診療方案進行策略規劃，以及提供共情服務。類似的，保險公司也可以使用深度學習系統將估算受損汽車的成本修理費用變得自動化，讓人類保險雇員有更多時間完成更加復雜和需要更多經驗的客服。

未來我們還將借助心理學方法，以及數據科學、人工智能產品，繼續使用、依靠并且發揚人類決策系統。但在可以預見的未來，人類仍將是“決策過程中的一部分”。至少我們是這樣預測的。

閱讀全文