近期在微軟研究院舉辦的機器學習前沿論壇中,微軟劍橋研究院院長 Christopher Bishop 與微軟全球資深副總裁 Peter Lee 進行了一場精彩的爐邊對談,分享了各自對機器學習研究和前沿問題的思考與展望。本文為大家節選、整理了此次對話。
Christopher Bishop(左)與 Peter Lee(右)線上對話Christopher Bishop:很高興能與 Peter Lee 交談。首先祝賀你成為微軟研究院的負責人。你可以談一下為什么微軟選擇把科研和技術孵化放在同一個屋檐下?
Peter Lee: 謝謝 Chris。我認為在某種程度上,這個問題是非常核心的。在過去的幾年里,我們的研究、由研究驅動的想法、甚至是研究人員自身,都已經越來越多地參與到了微軟創造新技術、新工程、新業務線和新產品的過程中了。我認為這是對行業發展方式的直接回應。所以當你看到諸如硅在云計算中的應用、保密計算、或者大規模 NLP 預訓練模型的應用強度時,你會意識到所有的這些事情從根本上都需要研究驅動,而且需要研究者的思維模式和世界觀。所以和微軟的科研在一起,可以讓我們更能捕捉到新奇的想法,讓微軟的技術孵化有更多的可能性。
從某種角度來說,特別是從微軟研究院來說,我認為這個方式是振奮人心的。我們有很多同事,比如微軟研究院新體驗與新技術部杰出工程師 Doug Burger 博士等,他們在創造非常重要的新的機遇;或者有些同事,他們一開始是研究人員,后來領導了工程團隊,現在又回到了研究領域,這種研究領域和公司商業之間的相互影響,正變得越來越重要。所以我們試圖創建一個組織來最大化其中的優勢是合乎邏輯的。
當然還有另外一個因素,我希望這個機構可以幫助整合微軟的所有研究,從而更好地建立微軟研究院的影響力和領導力。
Christopher Bishop:我同意你的想法,我認為這是一個非常令人興奮的發展。事實上,當你開始擔任這個職位的時候,你還有另外一個不同尋常的開始,就是專注到公司對新冠疫情的應對上,思考科技如何幫助世界對抗這次疫情。能分享一些你的經歷和項目嗎?
Peter Lee:當然可以。我記得那是一個周四,包括 Satya 在內的幾位公司高管與我探討了,接下來要集中精力協調微軟可以如何通過科技幫助應對新冠疫情。這很有難度,因為如何讓你的想法被聽到、被看到,如何招募以及調動資源,都不是容易的事。我們解決這個問題的方式之一,就是通過我們每年都會舉辦的駭客松(Hackathon)活動的一個平臺,號召大家加入并提出自己的想法。如果你有一個想法,那么就可以把它寫下來,讓大家知道,并招募想要參與這個項目的人員。之后我們建立了一個虛擬團隊,其中大部分的人來自微軟研究院,由這些科研人員對所有項目進行篩選,整個活動過程非常棒。活動結束時,有1100名微軟員工參與了此次活動,共成立了186個項目,有幾十個項目被挑選了出來,其中一些產生了巨大的影響。
有一個項目是直接應對醫院和診所所面臨的危機的。該項目構建了一個建立在 Bot Framework 上的 AI 聊天機器人技術 Microsoft Health Bot。要知道疫情期間,人們會涌向熱點地區的急診科咨詢、就診,或者打電話給醫院的呼叫中心,這使得醫護人員不堪重負。Microsoft Health Bot 可以智能地提供建議,進行實時的健康咨詢。我們與疾病控制中心(CDC)合作,在 CDC 官方網站上面向全美用戶推出了這一機器人服務。目前為止,全球已有2,100多家醫院和診所部署了這種醫療機器人服務。迄今為止,已有3,900萬人使用機器人對自己的癥狀進行評估。使用了該醫療機器人服務的多數醫療機構表示,其急診部、呼叫中心和遠程醫療服務有關新冠肺炎的就診或問詢數量降低了至少30%。
另一個項目則與診斷有關。我們與生物技術公司 Adaptive Biotechnologies 合作,利用機器學習技術參與了 T 細胞對新型冠狀病毒的深入分析,并將所有數據公開發布在 Immune Code 數據庫中,以期促進基于 T 細胞的新診斷方法、新藥物療法和新疫苗的研發工作。除此之外,我們還有許多與公共健康相關的項目,比如,分析下一個熱點地區在哪里,各個國家的弱勢群體在哪里,重癥監護病房、呼吸機、個人防護裝備的供應配備的如何等等。所以我認為我們都應該為有很多這樣的項目而感到自豪。微軟的反應確實產生了影響,并且還在不斷地持續下去。在我們整個駭客松活動中,有超過三分之一的參與者和超過三分之一的項目來自微軟的研究部門。我認為這很神奇,在應對新冠疫情方面,微軟的科研確實在一個前沿和中心地帶。
Christopher Bishop:你能和我們分享一下你對微軟在醫療健康領域的戰略嗎?或者說為什么微軟要涉足醫療領域?
Peter Lee:微軟在醫療健康領域不僅涉及到科研,還有商業的業務,Azure 云計算平臺,以及相關的實踐和設備。
我對這個問題的思考可以分為三個階段:相關性,價值和轉變。它們是分階段出現的。當 Satya 希望我們接手醫療健康方面的工作時,第一項就是相關性的問題。我所說的相關性是指醫療健康領域的利益相關者是如何理解微軟可以提供的東西的,我們要如何與醫療健康行業、醫療服務提供商、醫院、診所、醫療系統、保險公司、供應商、生物制藥行業、醫療技術公司、創業公司等等聯系起來。相關性就是指我們必須弄清楚如何獲得他們,因為這樣可以讓我們更加深入的進入到合作與伙伴關系,開始學習更多。
在微軟內部也存在相關性,因為醫療健康是每個人都會直接接觸到的領域之一,每個人都有自己的觀點。這種經歷往往受到人們與醫院醫生和護士的個人接觸的影響,但很大程度上我們會忽略背后更大的醫療健康體系。所以我們必須努力贏得內部的信譽和相關性。要做到這一點,就意味著我們也要在微軟內部找到合適的合作伙伴。
第二個階段是價值,這主要和數據、人工智能相關。現在,圍繞著所謂的互操作性問題,醫療數據正在發生巨大的變化,人們試圖讓醫療數據以標準化的格式去到所需要的地方,并使其更容易受到機器學習和數據分析的影響。因此,我們做了大量的工作來發展 Azure, Dynamics 和 Microsoft 365,讓它們使用健康數據的語言。所以你會聽到 FHIR 等,這些是健康數據的新標準。人工智能也是非常基礎和重要的。大量的健康數據是非結構化的文本,所以 NLP 和機器閱讀就變得非常重要,計算機視覺也可以幫助真正理解醫學影像、理解分子、理解人類基因組、了解免疫系統和免疫體等。所有這些問題從根本上來說,都是機器學習和人工智能問題。這是我們一直關注的領域。當然,為每一個東西建立技術堆棧然后再把它們變成產品是一個很大的挑戰。
舉一個例子,全球醫療健康市場估計大約是7.5萬億美元,這是什么意思呢?比如,與我們合作密切的公司 Optum 是處理醫療索賠數據的,他們會將這些數據從醫療健康提供者傳遞給支付者,然后將支付者的匯款在返回給提供者。所以數據流往返在美國的醫療系統中是一個非常重要的功能。在這種雙向的過程中,大量的數據分析將有助于相關業務的發展。Optum 是美國醫療系統中第二大提供這種服務的公司,所以這樣的利基市場支撐了 Optum,而它擁有和微軟一樣的員工數量和年收入。因此,如果你考慮一下目前正在發生的醫療健康向云計算進行巨大轉變的可能性,那么我們云計算中的醫療健康業務規模未來超過微軟目前所有業務的總和不是沒有理由的。當然,我們合作中最有趣的一個是和 Novartis 公司的合作,我們都很為這件事激動。
Christopher Bishop:是的,這是一個令人興奮的機會。我想,對于微軟研究院來說,這也是一種非常不同的操作模式。我有幸在微軟研究院工作已經超過23年了,從歷史上看,我們會做很多基礎研究,有時我們會把技術轉化為產品,產品會被賣出去,客戶會使用它們,然后對現實世界產生影響。這是一個很長的過程,但通過這種方式我們與現實世界連接到了一起。
在與 Novartis 公司的合作中,我們直接與客戶的接觸是令人興奮的,這也和在新的數據驅動的世界里的機器學習技術有關,因為我們不再考慮放之四海而皆準的技術——那種放在磁盤里,壓縮、打包再發送到世界各地的技術,現在更多的是定制,針對特定的領域、特定的合作者、特定的應用程序來進行制作。因此,我們與 Novartis 緊密合作,于去年簽署了合作協議,并在今年1月份正式啟動。在這個合作中, Novartis 的科學家和微軟研究院的科學家之間是一個對等的伙伴關系,Novartis 把制藥方面的專業知識和積累的數據結合起來,我們則發揮在機器學習方面的專長,利用微軟云的存儲能力和非常強大的計算能力。我們會共同應對一些非常艱巨的挑戰,而這些挑戰是任何一個組織都無法獨自完成的。
我們所做的一件事就是思考如何將微軟研究院的技術優勢,應用到 Novartis 面臨的一些挑戰中。例如,我們幾年前建立了一個關注醫學成像的項目,特別著重在三維醫學圖像的分割,比如 MRI(磁共振成像)。它有很多應用,其中一個很重要的應用就是所謂的放射治療計劃。如果有人有一個惡性腫瘤要接受放射治療,那么就會有一些軟件優化光束的三維形狀,以便于最大限度地損害腫瘤并減少對周圍組織的傷害,特別是對重要器官的損害。而為了讓這個軟件工作,它需要一個腫瘤的三維圖像,這就是 MRI 的用武之地。在那時候,放射腫瘤學家會使用 3D 掃描,然后用電腦屏幕上的手寫筆,一片片地掃描這片區域,劃出邊界。對于一個簡單的案子來說,這可能就需要20多分鐘。如果轉移了,有多個腫瘤,那么則可能需要幾個小時。這是艱苦乏味的,而且必須要準確。
這就是我們的項目能夠真正幫助放射腫瘤學家的工作流程的地方。我們的技術可以通過自動化,在幾秒鐘的時間內,產生分割的候選區域,然后專家可以去修改他們想要改變的任何小細節,這大大加快了這一工作進程。目前,這項技術已經被廣泛應用于研究環境中,在劍橋當地的 Addenbrooke 醫院(歐洲最大的教學和研究醫院之一)里,這項技術在臨床實踐中正在進行有效地探索。
Peter Lee:因為這個醫學成像應用不可能僅僅采用現有的機器學習或計算機視覺系統,甚至是現成的算法。為了使該應用程序良好地工作,我們必須專門開發一些新的東西。而且,這確實需要一個世界級的研究機構來做這樣的事情。
Christopher Bishop:是的。我認為正是深度研究和現實應用的交集讓很多研究人員興奮不已。我們有機會直接影響現實世界,在醫療健康領域拯救生命,當然我們首先要解決一些非常困難的研究問題才能實現。所以,至少對我來說,深度研究和現實世界影響的結合是非常令人興奮的。
我們與 Novartis 合作的另一個很好的例子是關于他們的核心業務的,也就是創造新藥、新療法,這實際上意味著發現新的分子。有趣的是,數據的性質與許多其他應用程序相當不同。比如成像,圖像往往是固定的大小,或者你可以重新采樣到固定的大小。神經網絡總是以相同的格式,相同的維度來獲取數據。但是分子很有趣,因為很明顯它們在大小,形狀和結構上都是不同的,所以你不能用一個簡單的分子展示,然后把這個當作神經網絡的輸入信息,因為它的結構是可變的。在微軟研究院,一些圖形神經網絡技術已經處于領先地位,這些技術解決了如何利用機器學習,并將其應用到數據上的問題,這些數據具有可變的大小和結構,比如分子。這是一個很好的例子,它把微軟研究院的深入研究,與 Novartis 公司在理解結構和分子之間的關系以及它們的生物活性上的專業知識,結合在了一起。在這個項目中,很難想象任何一個小組能夠單獨完成這么好的工作,但是我們合作的時候,就可以做一些非常獨特和非常有趣的事情。
Peter Lee:我認為一個有趣的科學挑戰是——你不能指望解決一個問題,僅僅是基于數據或僅僅通過我們對化學過程的理解,這真的需要兩者的結合。
Christopher Bishop:確實。我認為關于醫療健康最有趣的事情之一,是對現實世界產生影響,而且有了造福社會的機會。我也認為,醫療健康確實把焦點放在了很多深層次的挑戰,機器學習的研究挑戰上。
我們已經談了很多關于新冠疫情的話題了,當然,這場全球疫情的另一個重大影響是遠程工作和在家辦公的驚人轉變,以及遠程協作技術的使用,比如微軟 Teams 的使用。
Johannes Gehrke 是微軟的技術院士,他最近加入了我們,成為了我們在雷德蒙的研究負責人。在此之前,Johannes 負責微軟 Office 的大型工程工作,特別是人工智能和微軟 Teams 的可擴展性方面。我認為 Johannes 是一個理想的人選,來和我們分享他對生產力變化的看法以及支持這種變化的技術,更具體地說是,機器學習如何進一步幫助我們的現實生活。
Christopher Bishop(右)與 Johannes Gehrke(左)線上交流
Christopher Bishop:我們很高興你加入了微軟研究院。你認為機器學習在生產力、工具和技術方面能發揮什么作用呢?
Johannes Gehrke:我想首先看看音頻和視頻堆棧,了解哪里存在舊的控制理論,我們是否可以用機器學習來代替。我們即將推出的噪聲抑制,基本上就是用機器學習代替了一個舊的堆棧選項噪聲抑制器。進步真的很驚人。這也是機器學習研究發揮重要作用的一個很好的例子,但是發表的論文和實際應用之間還是有很大差距的,所以我們必須做更多的工作來讓模型表現得更出色,同時也要適應我們實際看到的各種各樣的噪音。所以在我看來,基本上整個控制平面,甚至音頻/視頻堆棧的數據平面都可以用機器學習代替。
其次,可能會有非常有趣的面向用戶的特性。試想,我們有一個功能,我可以舉起我的手,但當結束講話時,人們忘記放下來了。所以我認為有很多面向用戶的功能,我們可以根據微妙的信號減輕互動的程度,在現實世界中交流的時候,我們通常能看到這種信號,但是在虛擬的環境中,我們是做不到的。
Christopher Bishop:我覺得這很有趣,看看機器學習是如何變得無處不在的。就像你說的,在這些更傳統的問題上現在已經被機器學習所解決了,而且它們在很多時候都更加有效,因為它們被調整到了特定的數據或特定的環境中使用,而不是通用的。我認為這是當今機器學習的一大前沿。
Peter Lee:Chris,讓我們回到你身上,在過去的30多年里,你是機器學習領域的先驅之一。在你從事這一行的30多年里,你認為這個領域是如何變化和發展的?
Christopher Bishop:我認為這30多年來最大的轉變是這個領域的重點。老實說,在這30年的前20年里,機器學習并不是真的那么很有效,雖然有很多令人興奮的事情,每個人都知道機器學習是前途無限的,這很吸引人。但現實是,那時許多機器學習系統的性能還不足以在現實世界中使用。可能有一些間隙中的應用程序,但大多數都沒有真正實現它們的承諾,也不令人興奮。當然,在過去的十年里,這種情況發生了改變,特別是隨著深度神經網絡和深度學習的發展,以及大規模數據集和大量計算的擴展。
我們所處的世界中,機器學習的應用有上千種。今天大多數人都已經使用了幾個,甚至可能都不知道。機器學習正變得無處不在,這意味著,盡管我們仍持續強烈關注機器學習在準確性方面的表現,但我們總是想讓它更準確。因為當我們在現實世界中使用機器學習時,它帶來了一系列的新挑戰。我把這看做是圍繞著機器學習工作核心問題的隱蔽性問題。我認為由于數據集的偏見,預測結果中就會有隱藏的偏見,比如公平問題,可解釋性問題,因果關系的問題,如果我們真的想對結果的偏見進行干預的話,那么還有很多工作要做。20年前是沒有人會攻擊一篇論文的,但是現在一旦你把東西放到網上,有數億人在使用互聯網,那么就會有敵對的人,出于各種不同的原因會有人以各種各樣的方式攻擊它。我們不得不擔心這些問題。
在某種意義上,我不認為我們會得到所有的答案,但通過類似此次機器學習前沿論壇這類交流活動,我們肯定會觸及許多關鍵問題,并聽到一些非常有趣的前沿觀點。關于我們現在看到的趨勢,我認為是非常令人興奮的。其中一個,我認為是相當明顯的,就是縮放。今天機器學習工作做得這么好的一個原因是因為我們已經學會了縮放,縮放數據集的大小,縮放學習算法的大小,縮放參數數量方面的模型。當然,為了能夠在大數據集上訓練大模型,我們必須擴大計算機的規模,而這一趨勢看來還將繼續下去。例如,當我們思考自然語言模型的發展時,我們并沒有意識到我們已經達到了某種漸近線。所有的跡象都表明,更大的數據集、更大的模型,更多的計算,將讓我們看到性能上越來越多的改進,越來越多的新屬性。這真的很了不起。對該領域的一個真正的挑戰是如何保持這個趨勢,我們如何繼續看到這些機器學習性能的大規模突破。我認為這是一個非常重要的趨勢,而且將繼續下去。
另一個與機器學習相關的是數據。數據是機器學習的核心。當我們試圖讓機器學習擴展到越來越多的領域,比如我們討論了很多在醫療健康方面的例子,以及其他領域的,收集數據、收集可用的數據,會給社會帶來巨大的潛在好處。但是很多數據非常敏感,非常個人化,比如醫療數據,就是一個很好的例子。所以從隱私和安全的角度來看數據,我們也需要多多注意這方面的發展。我認為這是一個令人興奮和重要的前沿領域。在為云機器學習提供保密性方面,微軟在很多方面都處于領先地位。我們是第一個部署數據加密技術的云提供商,不僅在數據通過互聯網傳輸和存儲的時候,而且在數據進入處理器的時候都是加密的。所以解密只發生在處理器內部,這意味著即使數據中心里有物理訪問芯片的人,他也只能看到加密的數據進出芯片,無法獲得數據。這是非常高的安全性和私密性。
我們知道機器學習不僅受益于更多的數據,而且受益于不同的數據。有時,你可以將多個數據集放在一起,你得到的不僅僅是部分之和。但問題在于,不同的組織,不同的人,如何把他們的數據放在一起,匯集這些數據來進行機器學習,而不是簡單地讓其他人或其他組織直接訪問這些數據。機密的機器學習提供了這種可能性,數據可以整合,但只能在芯片上解密。它在芯片中被用來訓練一個機器學習模型,然后這個機器學習模型或者它的預測結果被提供給數據提供者。由于它是在匯集的數據上訓練的,所以它更有效,更有能力,但在任何階段,任何實體都不能訪問其他實體的數據。事實上,微軟在任何階段也都無法訪問這些數據。所以我認為隱私與機器學習的交叉將是未來幾年一個非常重要的領域。
Peter Lee:這很有趣。正如你之前所說,確實改變了很多。這也讓我們回到了我們談話的開始——為什么要把科研和技術孵化結合起來。
Christopher Bishop:是的,我認為把科研和技術孵化結合在一起是非常自然的。由于機器學習的普遍性,這意味著機器學習不僅會出現在許多不同的地方,而且它正在以我們從未見過的新方式影響著社會。
Q&A
Q:由于醫療健康數據是敏感且隱私的,因此在維護隱私與解釋方面如何實現兩者間的平衡?是否有關于安全的多方計算研究來維護數據隱私?
Christopher Bishop:我認為在讓數據增值和保護數據隱私之間存在著一種博弈。對于這個問題并沒有一個放之四海而皆準的答案,但我們在微軟研究院做的一些研究確實是旨在找到這個問題的核心并解決這個問題。
當數據處于靜止狀態或從一個地方傳輸到另一個地方時,保護數據是非常容易的,因為它是加密的,但要從數據中獲得價值,就需要對它進行解密。所以這種安全計算的思想是只在芯片上解密數據,而真正的目標則是:即使有人在數據中心里,即使他們有所有的密碼,即使他們有芯片,可以測量輸入輸出的信號,但他們仍然無法看到數據,他們只會看到隨機噪聲和加密的數據。這就是我們的目標。
當你想把來自不同來源、不同人群、不同提供者的數據進行聚合并建立相關模型時,機器學習會特別強大,因為這些模型通常比僅根據單一數據源訓練的模型更好,但仍有需要研究的問題。微軟研究院開發的技術現在已經部署在了 Azure 上。微軟是世界上第一家將這項技術應用于云計算的公司。針對那些仍懸而未決的問題,我們在這個領域還有很多研究要做。
還有一個同態加密的問題,也很有趣,我把它看作是一種互補的技術。它能提供非常非常高的安全性和私密性,但它可能缺乏機密計算所提供的通用性和伸縮性。所以我認為現在,機密計算看起來是一個非常實用的技術,而且已經應用在真實的場景中,但在這個領域還有很多工作要做。
Peter Lee:關于研究,我還想到了另一個方面,因為即使我們認為一個普遍的同態加密部署在現在的產品上是沒有必要的,但它也會極大地影響我們的思考。它讓我們對整個問題以及如何處理這個問題有了不同的思考,所以它給了我們更多的空間去創造。
Q:Peter,能分享一下微軟在人工智能公平性上做的努力嗎?
Peter Lee:當然,有很多方面。之前聊天的時候,在我的閱讀清單上我貼出了一篇論文,是對偏見的分析,以及 NLP 訓練的模型。當然,退一步說,我們所有的技術人員都在尋找工具。在工具方面,我們正在非常密集的研究和開發像 SHAP 和 LIME 這樣的框架,這讓我們有能力創建模型,分析不同種類的偏見。如果你想問一個問題,假設這個模型對年齡有偏見,亦或對老年人、種族或者性別有歧視,SHAP、LIME 以及類似類型的框架讓你能夠向模型詢問這些問題,進行分析,并了解這些問題是不是真的。這實際上已經開始產生影響了。這是一方面,只是一般的政策。但隨后,我們應該如何以負責任的方式來行動、思考、進行研究和部署技術,在某種程度上,這確實讓我們看到了隨著技術發展,技術用最道德的方式產生最積極的社會影響的可能性。所以我們嘗試專注于這些具體的工具上,研究人員和開發者可以使用這些工具來思考這些技術對我們政策的影響。
編輯:hfy
-
微軟
+關注
關注
4文章
6565瀏覽量
103954 -
人工智能
+關注
關注
1791文章
46853瀏覽量
237544 -
機器學習
+關注
關注
66文章
8377瀏覽量
132406
發布評論請先 登錄
相關推薦
評論