AIGC,即人工智能生成內容,是指利用人工智能技術,根據(jù)用戶的需求和意圖,自動生成文本、圖片、音視頻等多種形式的內容。AIGC具有高效、多樣、創(chuàng)新的特點,可以應用于娛樂、教育、營銷、新聞等多個領域,為用戶帶來更豐富的體驗和價值。
比如我這篇文章的配圖,就是用AIGC生成的。我在bing圖像創(chuàng)建器里面輸入提示詞“一個聊天機器人在給病人做心理咨詢”,就可以得到上面的圖片。
而大模型是指具備海量參數(shù)和復雜結構的人工智能模型。例如,GPT-3是一種具有1750億個參數(shù)的大型語言模型,具備驚人的語言理解和生成能力。大模型的訓練需要大量的計算資源和數(shù)據(jù),但其帶來的創(chuàng)作能力和自動化程度是前所未有的。大模型可以通過輸入一小段文本,自動生成連貫、有邏輯的文章,為創(chuàng)作者提供了強大的輔助工具。
有大模型加持的AIGC隨著chatGPT的火爆,已經是路人皆知了。很多企業(yè)也紛紛加入了這個領域的競爭。對大模型AIGC的支持也成了很多先進企業(yè)選擇云基礎設施重點考慮的因素。 而騰訊云作為國內領先的云計算服務商,為AIGC大模型場景提供了全面的解決方案。今天,我們就從存儲的視角,看看騰訊云存儲給AIGC場景提供哪些針對性的解決方案。
崔劍作為騰訊云存儲產品團隊的一員,他從騰訊云存儲團隊的角度,向大家介紹他們對AIGC場景的思考以及目前的工作和未來計劃,旨在幫助國內從事AIGC相關業(yè)務的公司更好地進行大模型訓練。
大規(guī)模訓練對于開發(fā)者朋友們來說并不陌生。崔劍解釋說,大規(guī)模訓練可以分為兩個階段:訓練和推理。在訓練階段,AIGC團隊從各個網(wǎng)站收集各種待訓練素材,包括他們自己生成的素材。這些初始素材經過初步清洗和標注后,被送入GPU進行訓練。訓練完成后,訓練結果被輸入到神經網(wǎng)絡中,使得大模型訓練的神經網(wǎng)絡變得越來越智能。
在訓練場景中,數(shù)據(jù)存儲起著至關重要的作用。為了滿足不斷增長的數(shù)據(jù)規(guī)模和多樣化的數(shù)據(jù)類型,訓練場景對存儲系統(tǒng)有以下關鍵要求:
1. 數(shù)據(jù)湖統(tǒng)一存儲:訓練場景需要一個統(tǒng)一的數(shù)據(jù)湖存儲系統(tǒng),能夠容納不同來源和格式的數(shù)據(jù)。這種統(tǒng)一存儲能夠將數(shù)據(jù)集中管理,提供一致的接口和訪問方式,簡化數(shù)據(jù)管理和查詢操作,從而提高效率。
2. 自由流動的數(shù)據(jù):在訓練場景中,數(shù)據(jù)的自由流動至關重要。存儲系統(tǒng)應該提供高效的數(shù)據(jù)交換和傳輸機制,以便數(shù)據(jù)在不同業(yè)務之間自由流動。這樣可以實現(xiàn)數(shù)據(jù)共享和協(xié)作,避免數(shù)據(jù)孤島的問題,并且促進跨部門和跨團隊的合作。
3. 高吞吐、低時延:由于訓練場景通常涉及大規(guī)模數(shù)據(jù)處理和計算,存儲系統(tǒng)需要具備高吞吐和低時延的能力。高吞吐能夠支持快速讀寫操作,提供穩(wěn)定的數(shù)據(jù)傳輸速度。低時延可以減少數(shù)據(jù)訪問的延遲,確保訓練任務能夠及時響應和迭代。
綜上所述,訓練場景對存儲系統(tǒng)有著數(shù)據(jù)湖統(tǒng)一存儲、自由流動的數(shù)據(jù)、高吞吐和低時延的關鍵要求。滿足這些要求的存儲系統(tǒng)能夠支持高效的數(shù)據(jù)管理、協(xié)作和處理,為訓練場景的成功實施提供可靠的基礎。
基于這些訓練結果,業(yè)務團隊將其進行推理和應用的封裝。推理和應用包括文本生成、圖像生成、視頻生成等功能。終端用戶可以提供輸入,例如一段文本,希望生成相應的圖像或古詩。輸入進入推理系統(tǒng)后,系統(tǒng)基于神經網(wǎng)絡的積累,通過服務端返回結果。在這個過程中,還有一些重要的旁路模塊,如內容審核。
由于所有內容都由機器生成,可能涉及政治、色情或恐怖主義等問題,各大平臺都投入了大量資源進行內容審核。 推理的結果可以應用于2B或2C的平臺。對于2B平臺,需要對推理結果進行管理,可能還需要下游內容管理的解決方案。崔劍表示,騰訊云在AIGC領域投入了大量精力,提供全面的解決方案,包括計算、存儲、網(wǎng)絡、容器和云原生等調度能力。時間有限,崔劍僅從存儲團隊的角度介紹了他們在騰訊云AIGC解決方案中的貢獻。
AIGC的核心要素包括內容生成、內容審核和內容智理三個維度。內容生成是指利用深度學習模型,根據(jù)用戶輸入的關鍵詞、語句或圖片等信息,生成相應的內容。內容審核是指對生成的內容進行合法性、合規(guī)性和質量的檢測和篩選,防止出現(xiàn)違規(guī)、低俗或不符合用戶期望的內容。
內容智理是指對生成的內容進行結構化、分類、標簽化等處理,提高內容的可檢索性和可利用性。 騰訊云作為國內領先的云計算服務商,為AIGC場景提供了全面的解決方案,其中和云存儲相關的包括:
- COS對象存儲數(shù)據(jù)湖:基于騰訊云對象存儲服務,為AIGC提供海量、安全、低成本的數(shù)據(jù)存儲空間,支持多地域部署和跨地域復制,滿足AIGC數(shù)據(jù)管理的需求。
- GooseFS數(shù)據(jù)加速:基于騰訊云自研的分布式緩存系統(tǒng),為AIGC提供高性能緩存服務,利用GPU節(jié)點的內存或NVME SSD作為緩存介質,實現(xiàn)數(shù)據(jù)與計算節(jié)點的就近訪問,提升數(shù)據(jù)訪問效率。
- 數(shù)據(jù)萬象內容審核:基于騰訊云數(shù)據(jù)萬象服務,為AIGC提供全方位的內容審核服務,包括文本審核、圖片審核、音視頻審核等,利用業(yè)界領先的語義模型和海量的違規(guī)詞庫,快速識別出生成內容中包含的違規(guī)、低俗或不合適的信息。
- 企業(yè)網(wǎng)盤數(shù)據(jù)智理:基于騰訊云企業(yè)網(wǎng)盤產品,為AIGC提供高效的數(shù)據(jù)智理服務,包括對用戶的數(shù)據(jù)集、Fine-tuned models、生成的內容進行結構化、分類、標簽化等處理,并支持多模態(tài)檢索和跨平臺分享。 通過以上解決方案,騰訊云為AIGC場景提供了端到端的支持,幫助開發(fā)者們快速搭建AIGC應用平臺,實現(xiàn)內容生成革命。
西瓜哥做存儲很多年,采用對象存儲做數(shù)據(jù)湖,采用分布式文件系統(tǒng)做大模型訓練加速,這都是業(yè)界的常見做法,我也很容易想到,相信其他公有云廠商也是如此。但是,騰訊云引入了成熟的數(shù)據(jù)萬象內容審核平臺,幫助用戶解決AIGC的合規(guī)問題,尤其有價值。并且最后通過網(wǎng)盤對AIGC的產出內容進行高效的管理,讓AIGC的價值充分釋放,我覺得也是騰訊云的一個亮點。
針對騰訊云存儲的AIGC解決方案,有四個重要的步驟。
Step.1
第一步是數(shù)據(jù)集下載和預處理,在這一關鍵步驟中,國內的公司與國外的ChatGPT存在一些差距。崔劍認為,這種差距主要體現(xiàn)在兩個方面。首先是算法方面,雖然ChatGPT在早期的幾個版本中公開了一些算法,但新版本的算法并沒有公開,因為他們認為這是他們的核心競爭力之一。
其次是標注能力,這可能是大家容易忽視的因素。質量好壞與標注的準確性有關。對于經典的AI標注來說,例如對一張圖片進行標注,判斷其中是否有人物或風景,如果是人物,還要判斷性別和膚色等,這些問題可以通過簡單的問答進行標注。
然而,在大規(guī)模模型訓練中,對結果的精確度要求非常高,且復雜度較高,因此標注環(huán)節(jié)的技術要求較高。問題不在于是否能正確回答問題,而在于提問者如何提出問題,問題的質量將決定標注數(shù)據(jù)的水平,而標注數(shù)據(jù)集的質量則決定了最終產物的質量,這也是一個核心競爭力所在。
由于國內公司在這方面的積累時間相對較短,可能會根據(jù)自身的技術積累進行標注,也會從國外網(wǎng)站獲取數(shù)據(jù)。國外有一些網(wǎng)站提供了這樣的服務,用戶可以免費下載已標注好的數(shù)據(jù)作為訓練素材集的冷啟動。 對于從國外網(wǎng)站獲取數(shù)據(jù)這個場景,國內許多公司的第一步是拉取數(shù)據(jù),但面臨一個問題,即如何快速將這些數(shù)據(jù)拉回國內。
在這方面,騰訊云提供了多種解決方案,包括離線、在線、存量和增量數(shù)據(jù)等。針對這個場景,騰訊云的解決方案是MSP騰訊數(shù)據(jù)遷移平臺。它是一個PaaS平臺,通過可視化操作,可以將數(shù)據(jù)從國外網(wǎng)站快速拉取到國內存儲桶中,這就完成了第一步的操作。
Step.2
第二步就是訓練了。在訓練過程中,存儲在配合GPU的使用上起到了重要的作用。由于GPU的稀缺性和珍貴性,我們必須在存儲方面做好數(shù)據(jù)拉取加速,以更好地提供數(shù)據(jù)給GPU,避免浪費時間,并盡快將數(shù)據(jù)傳輸給GPU,從而減少GPU等待時間,提高GPU算力的利用率,從而節(jié)省成本。為了實現(xiàn)這個目標,我們需要分析整個訓練流程是怎樣的。
整個訓練流程中,涉及到大量的IO操作。原始素材由用戶匯集在云上對象存儲的存儲桶中,上面架設了GPU。訓練模型這一方面會進行高帶寬的數(shù)據(jù)拉取,將待訓練的素材批量拉取到本地,方便對待訓練素材進行向量化壓縮和本地模型運算。
然而,在進行本地模型算力過程中,會不斷進行Checkpoint的回寫操作。不同廠家的回寫策略不同,但都會周期性回寫一次Checkpoint大文件,這對存儲側的寫帶寬和讀帶寬都有較高的要求。 為了滿足用戶對帶寬和IO性能的高要求,騰訊云提供了一套方案。
COS對象存儲匯集用戶全量素材的產品,決定要拉取哪些數(shù)據(jù)可能會根據(jù)每日或每周的待訓練任務而變化。推薦用戶通過預熱的方式將數(shù)據(jù)Load到GooseFS中。GooseFS是部署在用戶計算端或近計算端的本地文件系統(tǒng),它有效利用了GPU本地的SSD資源。
在常見的GPU卡中,都搭載了三到四塊SSD盤,我們可以充分利用多臺GPU本地SSD盤,將其構建成一個統(tǒng)一的GooseFS文件系統(tǒng)。一旦數(shù)據(jù)拉到本地GooseFS后,用戶即可以在GPU本地進行更高效的讀寫訓練操作。 在這個方案中,騰訊云希望持續(xù)打磨GooseFS這一層的能力,充分發(fā)揮方案價值。
如果用戶直接從COS讀取數(shù)據(jù)可能會在性能上存在一些瓶頸,從絕對的數(shù)據(jù)角度來看,各家COS服務商根據(jù)單個邏輯桶提供OPS,一個單桶可能只能提供3萬OPS,也只能提供2GB的帶寬,即15-16 GBps。這顯然是不夠的。然而,如果能事先一次性將數(shù)據(jù)Load到GPU本地,運行本地的GooseFS,釋放本地SSD的帶寬,那么GooseFS可以達到TB級的帶寬,能夠充分滿足GPU本地訓練框架的性能要求。
整體的訓練加速比可以提升數(shù)十倍。此外,除了GooseFS層面的加速,如果需要的話,還可以進行AZ級服務端加速,進一步提升整個訓練過程的效率。
Step.3
第三步就是推理了。在推理階段,騰訊云已經走得比較快,開始考慮商業(yè)化或產品化的封裝,這一步非常重要。騰訊云提供了一套內容審核方案,整個流程相對簡單易懂。用戶首先在AIGC產品客戶端輸入一個要執(zhí)行的任務,但是用戶輸入的文字需要經過審核,因為有些描述可能不合規(guī)范。
因此,騰訊云先進行審核,檢查用戶輸入的內容是否有問題。如果沒有問題,數(shù)據(jù)就會傳遞到模型大腦這一層。模型大腦根據(jù)輸入進行分析和理解,并指導用戶獲取他們想要的結果。然后,在第③步中,產出的結果會再次發(fā)送到騰訊云內容審核的服務端進行審核。一旦審核通過,結果將在第④步和第⑤步之后再次返回給用戶。 崔劍介紹,騰訊云存儲數(shù)據(jù)萬象產品提供了數(shù)據(jù)處理和數(shù)據(jù)審核服務,已經成功運營多年。在審核能力和精準度方面,騰訊云在行業(yè)內處于領先地位。
Step.4
最后就是結果的管理了。在最后一步中,推理產物的使用者可能是個人,也可能是一家公司。對于后者,可能需要涉及到下游流程。根據(jù)業(yè)務需求,公司通過接口請求獲取推理產物,并需要進行管理。這個產物可能會作為知識庫的一部分存儲在公司內部,也可能需要在公司內部進行分發(fā)或匯總。為了解決這個問題,騰訊云存儲團隊提供了企業(yè)網(wǎng)盤作為最終閉環(huán)的解決方案。企業(yè)網(wǎng)盤是一種常見的SaaS辦公軟件,可以提供文件多人協(xié)作、一對多、多對多、多對一的文件分發(fā)和共享功能,同時支持移動辦公。
在上面的四個部分,比較觸動俺西瓜哥的其實是第一步。因為我知道,數(shù)據(jù)的收集和整理是最難的,也是工作量最大的。騰訊云能夠提供很多自動化的數(shù)據(jù)遷移和標注工具,這個對用戶的幫助是真的很大。俗話說,數(shù)據(jù)管理匯-存-算-管-用,匯是第一步。騰訊云的AIGC解決方案也覆蓋了所有的這些標準動作,形成了閉環(huán)。
除了在AIGC產品中提供閉環(huán)解決方案外,騰訊云存儲還在底層不斷升級引擎,降低成本、提高性能和可靠性。在產品能力方面,騰訊云存儲擁有三個核心產品。首先是公有云存儲COS,其次是私有云存儲TStor,該產品將存儲技術集成到一體機中,可供企業(yè)進行線下部署。最后是智能存儲的核心產品數(shù)據(jù)萬象CI,它可以幫助用戶處理存儲在云上的數(shù)據(jù),例如為圖片打水印、進行轉碼和審核等智能存儲功能。
騰訊云存儲團隊孵化了許多PaaS和SaaS級存儲產品,包括數(shù)據(jù)湖存儲GooseFS、企業(yè)網(wǎng)盤和視圖計算等。這些產品旨在滿足不同行業(yè)和使用場景的需求。 騰訊云存儲團隊與騰訊云的各個行業(yè)團隊緊密合作,為各個行業(yè)提供定制的解決方案,以滿足其特定需求。不論您所在的行業(yè)是哪個,騰訊云存儲團隊都致力于提供優(yōu)質的服務。
根據(jù)崔劍老師的介紹,我們了解到騰訊云存儲針對AIGC的解決方案主要包括以下幾個方面:
-在數(shù)據(jù)集的下載和預處理階段,提供MSP數(shù)據(jù)遷移平臺,幫助用戶快速將標注好的數(shù)據(jù)遷移到云上對象存儲桶。
- 在大模型訓練階段,提供 GooseFS 分布式文件系統(tǒng),利用 GPU 本地的 SSD 資源,加速數(shù)據(jù)的拉取和緩存,提高 GPU 算力利用率,實現(xiàn)訓練加速。
- 在推理階段,提供數(shù)據(jù)萬象的內容審核服務,對用戶輸入和推理產物進行質量把控,防止涉政、涉黃、涉恐等問題。
- 在推理產物管理階段,提供企業(yè)網(wǎng)盤服務,支持文件多人協(xié)作、共享、分發(fā)和移動辦公,幫助用戶管理和利用推理產物。
西瓜哥的簡單解讀就到這里了,我們看到,騰訊云存儲團隊為 AIGC 領域提供了一套全面、高效、智能的解決方案,從數(shù)據(jù)集的下載和預處理,到大模型訓練,再到推理和推理產物管理,展現(xiàn)了強大的技術實力和創(chuàng)新能力。這些解決方案不僅降低了用戶的成本和時間,提高了用戶的效率和質量,還為用戶帶來了更多的可能性和價值。
審核編輯:劉清
-
機器人
+關注
關注
210文章
28231瀏覽量
206617 -
人工智能
+關注
關注
1791文章
46896瀏覽量
237670 -
ChatGPT
+關注
關注
29文章
1549瀏覽量
7508 -
AIGC
+關注
關注
1文章
357瀏覽量
1512
原文標題:揭秘騰訊云存儲針對AIGC大模型業(yè)務的應對之道
文章出處:【微信號:High-end_Storage,微信公眾號:高端存儲知識】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論