但是,一年的時間,Facebook仍然做出了許多的成績,尤其在AI方面,這家社交媒體公司利用人工智能開發了許多的應用。例如智能推薦系統,例如對一些色情內容進行識別的智能識別工具等等。
Facebook在2018年過的并不好,一連串的數據泄露丑聞打的小扎和他同事措手不及。
但是,一年的時間,Facebook仍然做出了許多的成績,尤其在AI方面,這家社交媒體公司利用人工智能開發了許多的應用。例如智能推薦系統,例如對一些色情內容進行識別的智能識別工具等等。
拋去那些不好的事情,我們如何從Facebook 的2018年的成長中獲取養分?相信下面這篇Facebook 2018年的工作總結可以給你帶來一些靈感。
這篇文章,發布在code.fb.com上,小編有刪改的進行了編譯。
Facebook瞅準AI發展的眼光一直很在行,在這一領域里的行動也從未停止。
我們不滿足于在當前機器學習瓶頸的發展,而是希望找尋更新、更高效的學習方式。我們抱有利用AI造福世界的信念和對機器學習研究的堅持,我們的工程師將更多前沿的算法和工具開源到AI社區,例如Pytorch深度學習的開源框架及其升級,更新后的Pytorch還專門開發了支持新手的接口,使得他們更容易接觸深度學習,在一定的程度上推動了相關AI項目的落地。
除了一些論文和數據集之外,還有一些很棒的日常生活助手,比如加持人工智能的MRI掃描變得更加高效了,在救災工作和預防自殺方面也有提高。
2018年,我們找到了使用較少監督數據進行相關研究的可行性的方法,也將研究項目從最初的圖像識別擴展到了語言的翻譯和理解。
通過半監督和無監督培訓推進AI學習
當前,大多數AI系統更多使用的還是監督式學習,這意味著他們必須使用大量被標記過的樣本才能進行學習任務,而這些樣本數量對于訓練需求來說是嚴重不足的,因而這也就限制了技術長期發展的潛力,而想要改變以上問題可能需要多年的研究。
Facebook AI Research(FAIR)小組成立后,在人工智能研究上進行了多樣的探索。2018年,該小組使用了無監督機器翻譯,通過減少對標記訓練數據的依賴,打開了翻譯“小語種”的大門,讓我們的系統支持更多的語言翻譯。
主要采用多種方法來避免標簽訓練數據不足的問題,包括使用多語言建模來利用給定語言組中方言之間的相似性,例如白俄羅斯語和烏克蘭語、烏爾都語等語言的資源目前都很少,與英語相比,他們現有數據集十分有限。
雖然使用的是無監督的數據,但是它的性能卻能與“打標簽”數據訓練的系統相媲美。現在無監督方法有了更實質性的改進。
這就是為什么我們要探索更多的訓練方法,讓監督學習變得不再那么重要的原因。半監督和無監督式的學習方法或許是不錯的選擇。
在這項研究在今年已經被應用。并且為自動翻譯軟件增加了24種語言。此外,在與紐約大學合作過程中,我們為現有的MultiNLI數據集添加了14種語言,這些數據集廣泛用于自然語言理解研究,此前僅有英語版本。
我們最新的XNLI數據集中包括兩種低資源語言:斯瓦希里語和烏爾都語,這一方法有助于整體采用跨語言的語言理解,從而減少了對標記數據的需求。
為了研究基于標簽的圖像識別,我們顛覆了傳統的研究方法,新的方法能夠使得數據進行自我標記并形成大型訓練集,例如35億個公開的Instagram圖像就是用這么形成的。
我們的結果不僅證明使用數十億個數據點對于基于圖像的任務非常有效,而且它還使我們打破了一個記錄,比ImageNet上先前最先進的圖像識別模型的準確率高出一個百分比。
Hashtags可以幫助計算機視覺系統快速識別圖像的額外信息以及特定的子類。
加快人工智能研究和產業應用的融合
AI已成為Facebook幾乎所有產品和服務的基礎。這點從我們的工程師正在構建和增強的各種基于AI的平臺和工具中可以看出。
但是在2018年Facebook有了一個共同的主題:如何將人工智能技術嵌入到人工智能系統中。
自2017年PyTorch發布以來,深度學習框架已被AI社區廣泛采用,它目前是GitHub上增長速度第二快的開源項目。 PyTorch的用戶友好界面和靈活的編程環境使其成為AI開發中快速迭代的通用資源。由于代碼庫的貢獻和反饋,其開放式設計確保了框架將繼續改進。對于2018年,我們希望為PyTorch社區提供更加統一的工具集,重點是將他們的AI實驗轉變為生產就緒的應用程序。
我們在5月份的F8會議上發布了更新的框架,我們詳細介紹了它的原型系統和設置,以及它是如何集成Caffe2模塊的。還有產品為導向的能力和新擴展的ONNX。這一切都簡化了整個AI開發流程。
10月,我們在第一屆PyTorch開發者大會上發布了PyTorch 1.0開發人員預覽版。也展示了該框架的平臺生態系統。谷歌,微軟,NVIDIA,特斯拉和許多其他技術提供商在該活動中對PyTorch 1.0進行討論,且fast.ai和Udacity都上線了新版本課程,教授深度學習。
我們在本月早些時候完成了PyTorch 1.0的推出,放出了其完整版本的所有功能,例如在eager和圖形執行模式之間無縫轉換的混合前端,改進的分布式訓練,以及純C ++前端,用于高性能研究。
我們今年還發布了一些工具和平臺,擴展了PyTorch的核心功能,包括一對內核庫(QNNPACK和FBGEMM),它可以使移動設備和服務器更容易運行最新的人工智能模型。還有一個加速自然語言處理開發的框架—PyText。
PyTorch還為Horizon提供了基礎。Horizon是第一個使用應用強化學習(RL)來優化大規模生產環境中的系統的開源端到端平臺。
Horizon對RL進行了大量研究,但很少嘗試進行決策,也沒有用于那種可能包含數十億條記錄的數據集的應用程序。 在Facebook內部部署平臺后,在優化流視頻質量和改進Messenger中的M建議等用例中,我們使Horizon開源橋接RL研究和生產,讓任何人都可以下載。
這是一個顯示Horizon的反饋路徑的高級圖表。首先,我們預處理現有系統記錄的一些數據。然后,我們訓練模型并在離線設置中分析反事實政策結果。最后,我們讓專門人員配置模型,衡量真正的政策。新模型的數據反饋到下一次迭代,大多數團隊每天都會部署一個新模型。
我們還發布了Glow——一個開源的、社區驅動的框架。其支持機器學習(ML)的硬件加速。Glow與一系列不同的編譯器,硬件平臺和深度學習框架(包括PyTorch)合作,現在由包括Cadence,Esperanto,Intel,Marvell和Qualcomm Technologies Inc.在內的合作伙伴提供支持。
為了進一步鼓勵在整個行業中使用機器學習,我們發布了一種新的機器學習優化服務器設計,稱為Big Basin v2,作為開放計算項目的一部分。我們已將新的模塊化硬件添加到我們的數據中心機隊中,并且任何人都可以在OCP市場下載Big Basin v2的規格。
2018年標志著Oculus Research轉變為Facebook Reality Labs,以及對AI和AR / VR研究重疊的新探索。作為我們盡可能多地開源人工智能相關工具的持續努力的一部分,我們發布了DeepFocus項目的數據和模型,該項目使用深度學習算法在VR中渲染逼真的視網膜模糊。
在未來一年,我們希望獲得有關所有這些版本的更多反饋。我們將繼續構建和開源工具,完成PyTorch 1.0的使命,幫助整個開發人員社區從實驗室和研究論文中,提取最先進的AI系統并投入生產。
建立有益于每個人的AI
我們在開發非常廣泛的AI技術的技術方面有著悠久的歷史記錄。在過去的一年中,我們繼續部署應用人工智能的工具使世界受益,包括我們對自殺預防工具的擴展開發,這些工具使用文本分類來識別那些表達自殺的想法和語言的帖子。該系統使用單獨的文本分類器來分析帖子和評論,接著如果可以的話,將它們發送給我們的社區運營團隊進行審核。
該系統利用我們已建立的文本理解模型和跨語言功能,讓我們能夠接觸到需要獲得服務的人群數量得到提升。
我們還發布了一種使用AI的方法,可以快速準確地幫助查明災難影響最嚴重的區域,而無需等待手動標注數據。
這種方法是與CrowdAI合作開發的,能夠以更快速和更高效為受害者提供援助。將來,這項技術還可用于量化森林火災,洪水和地震等大規模災害造成的破壞程度。
我們部署了一個名為Rosetta的機器學習系統,每天從超過十億個公共圖像和視頻幀中提取文本,并使用文本識別模型一起理解文本和圖像的上下文。 Rosetta適用于多種語言,它自動識別有助于我們了解模因meme(目前比較公認的定義是“一個想法,行為或風格從一個人到另一個人的傳播過程。)和視頻或違反政策內容。
2018年,一個與紐約大學醫學院的長期合作的項目—fastMRI啟動。這個項目的目標是改進現有的診斷成像技術,使MRI掃描速度提高10倍。
fastMRI的目標不是開發專有流程,而是為了加速該領域技術。我們的合作伙伴已經為這項研究制作了有史以來最大的全采樣MRI原始數據集(由紐約大學學院完全匿名發布),以及開源模型,可以幫助更廣泛的研究群體開始這項任務。我們還推出了在線排行榜,其他人可以發布并比較他們的結果。
-
圖像識別
+關注
關注
9文章
519瀏覽量
38240 -
Facebook
+關注
關注
3文章
1429瀏覽量
54655 -
pytorch
+關注
關注
2文章
803瀏覽量
13150
原文標題:Facebook全年成果總結:我們在AI領域的行動從未停止
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論