移動互聯網時代,人類生產的新數據正以指數級別增長,數據中心越來越大,并消耗著地球上難以想象的巨大能耗,但人類依然可能面臨著“數據無處存放”的境地。
因此,讓文件變小一點,這絕對是個值得投資的點子。
神劇《硅谷》劇組就選中了這個點子。在劇中,幾個主角的得以創業成功的核心算法——“魔笛”即是選中了“壓縮”這一多數人都能理解但對技術要求頗高的領域:允許用戶在線將圖片壓縮至一半的大小,并依然保持其清晰度。
“魔笛算法”也一度引發了不少跟風打造屬于自己的“魔笛手”,此外,包括谷歌等人工智能巨頭公司近年來也在這個領域頻頻發力。
2016年,谷歌相關團隊推出了一款叫RAISR(Rapid and Accurate Image Super-ResoluTIon)的圖像壓縮技術。希望以人工智能技術作為壓縮路徑,將圖片大小壓縮到源文件的1/4, 但基本不會改變圖片的清晰度。
盡管引來如此高的關注,但很多人還是不認可它會在未來的發展中取得壓倒性的優勢。谷歌的RAISR算法也被不好業內認識吐槽說“壓縮一張圖片耗時久”、“壓縮后圖片清晰度沒有那么高”等等。
谷歌機器學習工程師、Jetpac創始人Pete Warden近期發布了一篇文章,認為在短期內壓縮算法可能會成為機器學習應用最可能出現的殺手級應用的領域,他從“壓縮”這一技術的起源開始,希望告訴大家問什么壓縮技術的前景是如此的廣闊。
大數據文摘對這篇文章進行了編譯。
OSDI上的一篇文章“神經自適應型內容感知互聯網視頻傳輸”激發了我對這一領域的興趣。
這篇文章告訴我們:通過神經網絡,在帶寬相同的條件下,用戶體驗將能提高43%,或者在帶寬縮減17%的條件下可以保持體驗的質量基本不變。還有其他同類的論文將類似方法運用在了生成壓縮或自適應圖像壓縮等方面。他們都展示出了驚人的成果。那么,為何我們不把機器學習更廣泛地應用在文件壓縮方面呢?
我們尚未擁有性能配套的計算設備
上文所提到的所有方法都需要相對較大的神經網絡,并且所需的計算量與像素數量成正比。這意味著大型圖片文件或每秒幀數較高的視頻文件可能需要比當前廣泛使用的移動設備更強的計算能力。
現行的大多數CPU每秒僅能處理百億級的運算,而在高清視頻上用機器學習進行壓縮很輕易便能達到十倍于此的計算量。
當然,好消息是目前我們已經有了一些硬件解決方案,比如Edge TPU等,可以讓我們看到未來達到更多計算量的可能性。我期待這種壓縮方法能夠運用到各種類型文件的壓縮轉換上,從視頻到圖像,到音頻,乃至更多充滿想象力的方式。
自然語言是終極壓縮目標
近來機器學習在自然語言處理中取得了大量有趣的成果。這是另一個讓我覺得機器學習是較為優越的壓縮轉換途徑的原因。
如果你稍稍觀察,便會發現字幕其實是將聲音壓縮為圖像的一種形式。我一直想做一個項目,試圖創造出一種相機,每秒生成一幀字幕,并將所有字幕逐一按行輸出至一個日志文件中。由此便可簡單記錄下基于相機的拍攝內容隨時間的推移而發生的故事,這可以被定義為一個敘事類的傳感器。
我將這一技術歸類到壓縮方法中的原因是你可以通過生成性的神經網絡將字幕還原為圖像。盡管重新生成的圖像不會跟原圖像完全一致,但也能夠從原圖像繼承一些信息。如果你希望結果與原圖像盡可能接近,你也可以從風格化方面考慮,例如為每個場景生成簡圖。這些技術的共同特征在于他們提取出了輸入文件中對于我們人類重要的部分,并省略了余下的部分。
不僅僅是圖像
語言世界也有類似的趨勢。語音識別正在迅速改進,合成語音的能力也在迅速提高。識別可以看作是將音頻壓縮為自然語言文本的過程,而合成則恰好相反。你可以想象將對話高度壓縮為自然語言文字而非音頻。誠然,我們不需要達到那種要求,但似乎通過擴展我們對于表達的認知類型,我們可以實現在低帶寬情況下的更好的結果。
我甚至還發現一些有趣的將機器學習應用在文本本身上的可能性。Andrej Karpathy的CHAR-RNN(遞歸神經網絡)展示了神經網絡對某些模板進行模仿的優越性,而對于壓縮技術來說,預測也是相同的道理。考慮到普通的HTML頁面有不少冗余,這一情況下GZIP壓縮方法似乎有很大機率能被機器學習改進,盡管我認為這沒有機器學習對文本的處理那么容易。
對于壓縮的研究已立項撥款
在我創業期間,營銷失敗的經歷讓我學到了一件事:如果已經有一筆預算要購買你所推銷的產品,該產品的銷售會容易得多。預算的存在意味著公司在是否應該花錢購買解決方案上已經贏得了艱難的斗爭,現在唯一的問題是購買哪種解決方案。
這也是我認為機器學習可以在這個領域取得巨大突破的原因之一,因為制造商已經擁有專門用于視頻和音頻壓縮的工程師、資金和芯片。如果我們能夠證明將機器學習添加到現有解決方案中能夠以一些可度量的方式(例如質量、速度或功耗)改進它們,那么它們將被快速采用。
帶寬將會花費用戶和運營商的大量的成本,質量和電池壽命將會成為產品的賣點,因此采用機器學習改進壓縮的優勢將比其他運用更為顯而易見。
許多激動人心的研究表明這種方式將會非常高效,而且我樂觀地認為還有許多應用尚未被發掘。我希望機器學習在壓縮中的應用將發展成為一門核心技術。
-
谷歌
+關注
關注
27文章
6142瀏覽量
105111 -
神經網絡
+關注
關注
42文章
4765瀏覽量
100549 -
機器學習
+關注
關注
66文章
8381瀏覽量
132425
原文標題:被《硅谷》選中的“壓縮算法”,為什么說下一個機器學習殺手應用將由此誕生
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論