最近,國產第一部3A游戲大作《黑神話:悟空》問世,引發了全網熱潮。游戲中的主角,重走西游之路,克服重重難關,向世界展現了中國文化的絕美與中國科技的自信。
而在現實當中,通往產業智能化的AI之路,同樣可以說是一條取經之路。廣大行業大模型開發者,也像“取經人”一樣需要跨越重重難關,克服九九八十一難。那么,誰能來幫助他們攻克艱險,踏上靈山?
9月4日,天翼云在線上舉辦了息壤一體化智算服務平臺大模型訓推服務能力升級發布會。面向行業大模型的真實開發需求與應用場景,天翼云將2023年推出的智算服務平臺進行了升級與革新,從而能夠為大模型開發訓練、行業模型微調提供全生命周期的工具鏈。
經過一年的精進,天翼云智算服務平臺具有全流程覆蓋、全方位支持、適配國內行業大模型AI開發需求的特性。旨在簡化大模型從訓練到部署整個流程的息壤一體化智算服務平臺,已經可以在AI取經之路上,助力每一位行業大模型開發者“取經人”。
作為云服務國家隊,天翼云所打造的息壤一體化智算服務平臺訓推服務能力的躍遷,正在幫助中國AI開發者踏上智能化之路,盎然西行,直面天命。
就像西天取經之路一樣,大模型開發者與千行百業的AI進階之路,需要面臨重重艱險。從AI大模型訓練所需的數據準備,到模型訓練、推理部署,每一個環節對于行業大模型開發者來說都蘊藏著不小的挑戰。我們可以揀選具有代表性的幾個“AI取經難關”進行討論:
1.數據的黑風山。
AI大模型訓練需要大量高質量數據,但對于行業大模型開發者來說,AI所需的優質數據獲取難度其實是非常大的。在各行各業中,數據資源呈現出極其有限,且分布非常分散的特點。在收集到一定的數據之后,開發者還需要面對數據標注、數據清洗等一系列工作,開發成本極大。除此之外,行業大模型開發者還需要與行業內的專家緊密配合,從而將專業知識與AI算法進行緊密結合。這些行業數據相關的難題,構成了一座重重險阻的“黑風山”,成為阻擋開發者踏上AI取經路的第一道難關。
2.訓練的獅駝嶺。
在化解數據難題之后,開發者還需要面對AI大模型訓練這個關鍵環節,而這個環節也是綜合成本開銷最大,且不確定性最高的一個。
對于行業大模型開發者來說,大模型訓練面臨著AI算力稀缺的核心問題,而在極高的AI算力成本之下,還需要應對傳統算子運行效率差、訓練集群故障多、故障定位與恢復時間漫長等重重困難。極高的訓練難度和訓練穩定性,成為困擾大模型智能化發展的高山。
3.模型的通天河。
對于眾多行業領域來說,進行獨立的大模型研發并非唯一選擇,如果能夠基于先進、成熟的大模型再結合自身行業所需進行“定制化”開發可取得事半功倍的效果。然而在這種需求下,行業模型開發者也面臨著業界優秀的模型與模型應用實踐難以獲取,模型的本地化水平低等問題。模型的應用部署,限制住了大模型在行業智能化的“最后一公里”。
能不能找到一個方法,連續攻克這重重難關,給予行業大模型開發者一站式的幫助?
面對這個問題,能夠一站式全流程覆蓋的智算服務平臺成為關鍵的答案。天翼云對息壤一體化智算服務平臺訓推服務能力的升級,就是希望瞄準真實的行業大模型開發,與開發者一起踏破AI取經的九九八十一難。
西天取經需要一步步走,一關關過。對行業大模型開發的賦能,也需要了解每個環節行業大模型開發者真正面對的挑戰,給出具有突破性的解決方案。
息壤一體化智算服務平臺訓推服務能力升級的特點,就是洞察真實的行業AI大模型開發工作的訴求,針對每個環節都給出對應的解法。我們可以將天翼云息壤一體化智算服務平臺訓推服務能力的演進,分為多個層面進行理解。看看天翼云如何幫助AI路上的“取經人”,一步步踏碎AI難關,走上陽關大道。
1.筋斗云,翻越模型天塹。
智算服務平臺對行業智能化的賦能,首先需要提供完善、優質的大模型。天翼云在息壤一體化智算服務平臺打造的大模型庫,擁有國內領先的豐富大模型。其中包含Llama系列、Qwen系列、智譜系列、書生浦語系列等眾多主流大模型,涵蓋不同參數量級,供用戶靈活選擇。在原來29個模型的基礎之上,本次新增上線重量級商業閉源大語言模型Baichuan4、主流開源大語言模型書生浦語2系列的InternLM2-Chat-7B和InternLM2-Chat-20B、圖文多模態大模型Qwen-VL-Chat,以及Qwen2系列、Qwen1.5系列和Llama3系列的諸多模型。在這樣的大模型陣容下,各行業可以輕松調用到符合自身需求的大模型,快速實現大模型到行業場景的孵化。
2.七十二變,化身數據萬千。
在困擾行業大模型開發者的數據工作中,息壤一體化智算服務平臺內置了專業的大模型數據集。中國電信在數據發展上開展的算數融合工程,首批推出超120萬對文本和語義識別類通用大模型訓練所必需的問答對數據,主要面向客服問答場景,解決了大量中小型企業訓練數據不足的難題。
尤其需要注意的是,息壤一體化智算服務平臺內置的數據集,在數據來源上經過了嚴格的審核,可以確保數據的準確性與真實性,并且通過多維度的數據驗證,確保了數據集的完整性與一致性。行業大模型開發者可以獲得高質量的數據支持,并且在該平臺中直接將數據應用到訓練、推理任務中。化身千萬的數據集,就像齊天大圣的七十二變,可以帶來堪稱神奇的大模型訓練效果。
3.金箍棒,打出最強訓練。
面對開發者在大模型訓練中的系列痛點, 天翼云在北京、上海建成兩個萬卡規模的公共智算中心,并在其資源池上搭載了息壤一體化智算服務平臺,使其成為國內首個單集群萬卡國產化全功能預訓練云服務平臺,可支持目前業內最大參數規模開源單體稠密模型Llama3 405B在內的大模型訓練。訓練測試結果顯示,Llama3 405B模型集群有效計算效率MFU在國產化萬卡規模情況下達到43%,達到業界領先水平。
息壤一體化智算服務平臺具有全鏈路故障感知和恢復、全鏈路日志監控和斷點續訓等核心技術,能夠實現1分鐘檢測、5分鐘定位、1分鐘內告警,本次平臺升級還增加了網絡I/O監控,為訓練穩定性添加了保障。在斷點續訓方面,在Llama2-70b模型萬卡規模測試場景下,在主機故障、NPU卡故障、進程退出故障、網絡超時故障四大類具體場景下斷點續訓測試平均秒級故障檢測,分鐘級故障定位和自動化處理,分鐘級訓練恢復,其能力達到行業前沿水平。此次平臺升級還新增了對芯片故障的優雅容錯,能夠做到無需重調度直接修復節點故障。目前,智算服務平臺已經應用于大量用戶的訓推場景,如深圳市智算中心、人工智能實驗室等。
4、火眼金睛,勘破場景應用。
面對不同行業、不同企業的多樣化大模型應用場景,息壤一體化智算服務平臺做了深度的洞察,就像點亮了“火眼金睛”,看到不同行業與企業對大模型的真實期待。
無論是具備深厚專業背景的行業客戶,還是對大模型推訓能力有嚴格要求的大模型廠商,都可以通過息壤一體化智算服務平臺獲得準確的支持,可通過直接調用預置的大模型服務,使得開發者能夠輕松地將先進的AI技術集成到自己的業務中。
如今,AI取經之路上行者不絕,息壤一體化智算服務平臺訓推服務能力也為諸多“取經人”提供了深層次的幫助。
比如說,中醫與大模型的結合,是近段時期的產業熱點話題。中國中醫科學院中醫藥信息研究所與天翼云合作,共同探索AI+中醫藥應用創新。在中醫垂類大模型的微調、應用發布平臺等環節中,天翼云提供的息壤一體化智算服務平臺為中醫藥信息研究所提供了多樣化的算法支持與模型優化工具,幫助大模型能夠更好地挖掘中醫藥數據的潛在價值,實現中醫瑰寶與AI技術的融合發展。
這些真實的大模型落地場景,證明了息壤一體化智算服務平臺為行業智能化帶來的有力推助。作為國家云的天翼云,正在通過智算服務踏碎AI難關,助力行業大模型開發順利西行。
讓每一位“AI取經人”都找到契合的產業助力,離不開圍繞智算平臺的生態建設。基于平臺能力,天翼云聯合伙伴上線了魔樂(Modelers.cn)開發者社區。
魔樂開發者社區真實貼合了中國的產業智能化環境,以及中國AI開發者的需求。就像《黑神話:悟空》展示的中國文化底蘊那樣,天翼云承載國家云之責,不斷加速構建滿足AI產業發展所需的智算社區。具體而言,社區具有三大特色:
1.極致易用的工具鏈。
魔樂開發者社區能夠提供高易用性的API,快速實現開發者和研究人員的創意,并且支持千款大模型一鍵式離線復現,使能開發者快速搭建開發環境,構建AI應用。
2.中文優質AI資源。
魔樂開發者社區已經擁有超過1000個大模型,構建了5大專區,能夠為開發者提供通義千問、chatGLM、百川、書生系列、星辰Telechat等主流中文大模型資源。
3.國產化算力使能。
面對國產化AI算力需求的發展,魔樂開發者社區還構建了體驗空間,提供限時免費的國產化算力資源,支持MindSpeed、Accelerator等加速庫,應對大模型時代分布式訓練的挑戰,顯著提升大模型訓練效率。
面向著數據、訓練、推理的重重AI難關,天翼云選擇步步前行,關關踏破。
經過不斷的精進升級,天翼云智算服務平臺已經在技術能力、資源積累、生態構建等方面展露出了極高的產業化水準。伴隨各個領域的行業大模型開發者對智算服務平臺的深度應用,產業智能化的路途正在變得愈發順遂,前途更加光明。
踏智能路,選國家云。隨著天翼云的息壤一體化智算服務平臺訓推服務能力的不斷升級完善,會讓每一位行業大模型開發者在AI世界中,都成為自己故事中的“取經人”。
審核編輯 黃宇
-
AI
+關注
關注
87文章
28734瀏覽量
265998 -
AI算力
+關注
關注
0文章
64瀏覽量
8314 -
大模型
+關注
關注
2文章
2098瀏覽量
1905
發布評論請先 登錄
相關推薦
評論