整理 | 彎月 責編 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
根據最新的研究結果,訓練一個普通的 AI 模型消耗的能源相當于五輛汽車一生排放的碳總量,而 BERT 模型的碳排放量約為 1400 磅二氧化碳,這相當于一個人來回坐飛機橫穿美國。為何 AI 模型會如此費電,它們與傳統的數據中心計算有何不同?
訓練效率低下
傳統數據中心負責處理的工作包括視頻流,電子郵件和社交媒體。AI 所需的計算量則更多,因為它需要讀取大量的數據、持續學習,直到完成訓練。
與人類的學習方式相比,AI 的訓練效率非常低下。現代 AI 使用人工神經網絡,這是模擬人腦神經元的數學計算。每兩個相鄰神經元的連接強度都是神經網絡上的一個參數,名叫權重。神經網絡的訓練則需要從隨機權重開始,一遍遍地運行和調整參數,直到輸出與正確答案一致為止。
常見的一種訓練語言神經網絡的方法是,從維基百科和新聞媒體網站下載大量文本,然后把一些詞語遮擋起來,并要求 AI 猜測被遮擋起來的詞語。剛開始的時候,AI 會全部搞錯,但是,經過不斷地調整后,AI 會逐漸學習數據中的模式,最終整個神經網絡都會變得非常準確。
相信你聽說過 BERT 模型,基于變換器的雙向編碼器表示技術(Bidirectional Encoder Representations from Transformers,簡稱 BERT),這是一項由 Google 提出的自然語言處理(NLP)的預訓練技術。該模型使用了來自維基百科和其他文章的 33 億個單詞,而且在整個訓練期間,BERT 讀取了該數據集 40 次。相比之下,一個 5 歲的孩子學說話只需要聽到 4500 萬個單詞,比 BERT 少3000倍。
尋找最佳結構
語言模型構建成本如此之高的原因之一在于,在開發模型期間,上述訓練過程需要反復多次。因為研究人員需要將神經網絡調整到最優,即確定神經元的個數、神經元之間的連接數以及各個權重。他們需要反復嘗試很多組合,才能提高神經網絡的準確度。相比之下,人類的大腦不需要尋找最佳結構,經過幾億年的進化,人類大腦已具備這種結構。
隨著各大公司和學術界在 AI 領域的競爭愈演愈烈,不斷提高技術水平的壓力也越來越大。在自動翻譯等難度巨大的任務中,如果能將準確度提高 1%,也將被視為重大的進步,可以作為宣傳產品的籌碼。然而,為了獲得這 1% 的提升,研究人員需要嘗試成千上萬的結構來訓練模型,直到找到最佳模型。
隨著模型不斷發展,模型的復雜度逐年攀高。另一款與 BERT 類似的最新語言模型 GPT-2,其神經網絡包含 15 億個權重。而 GPT-3 由于其高精度,引起了業界的轟動,但其權重高達 1750 億個。
此外,AI 模型的訓練需要在專用硬件(例如圖形處理器)上進行,這些硬件的功耗普遍高于傳統 CPU。如果你的筆記本電腦加載了優質的顯卡,可以玩很多高端游戲,那么你肯定會注意到這臺機器產生的熱量也比普通電腦高很多。
所有這些都表明,開發先進的 AI 模型需要大量的碳排放量。除非我們能夠利用百分百可再生能源,否則真的懷疑 AI 的進步與減少溫室氣體排放以及減緩氣候變化,孰重孰輕?是否真的可以功過相抵?
最后,開發 AI 的耗資如此巨大,能夠承擔得起各項費用的公司與機構實在少之又少,最終究竟應該開發哪種模型的決定權無疑也落到了這群人的手中。
AI 模型訓練應該適可而止
本文并不是要否定人工智能研究的未來,只不過在訓練 AI 模型的時候,我們需要采用更高效的方法,而且應該做到適可而止。
隨著 AI 模型訓練方法的效率提升,相信訓練的成本也會下降。同時,我們需要在訓練模型的成本和使用模型的成本之間權衡取舍。例如,在 AI 模型準確度到達一定高度后,每提升 1% 都需要付出巨大的精力,而實際得到的收益卻很少。不追求極致,更多地使用“適可而止”的模型,不僅可以降低碳排放量,而且也能為我們帶來更大獲益。
審核編輯 黃昊宇
-
神經網絡
+關注
關注
42文章
4765瀏覽量
100568 -
AI
+關注
關注
87文章
30239瀏覽量
268483
發布評論請先 登錄
相關推薦
評論