電子發(fā)燒友原創(chuàng) 章鷹
2024年11月9日下午,2024CCF中國開源大會——大灣區(qū)智鏈未來:智算產(chǎn)業(yè)應(yīng)用論壇在深圳博林天瑞喜來登酒店隆重舉行。本次論壇由中國計算機(jī)學(xué)會(CCF)、中國開放智算產(chǎn)業(yè)聯(lián)盟指導(dǎo),LF AI & Data中國社區(qū)、開放技術(shù)樞紐(Open Technology Hub)主辦,鼎盛方圓科技承辦。在這一盛會上,LF AI & Data董事會主席孟偉先生發(fā)表了題為“AI的挑戰(zhàn)與倡議”的精彩演講。
圖:LF AI & Data董事會主席 孟偉
孟偉先生在演講中提到,LF AI & Data基金會自2018年3月由Linux基金會創(chuàng)立以來,成員數(shù)量從最初的10余個增長至目前的77個,項目數(shù)量也達(dá)到了72個,這充分展示了開源社區(qū)的蓬勃發(fā)展,也很高興能與大家共同見證開源社區(qū)的壯大與成長。
在全球范圍內(nèi),尤其是中國,AI技術(shù)和大模型應(yīng)用正以驚人的速度發(fā)展,開源開放已成為開發(fā)者社區(qū)的主流趨勢。孟偉先生在接受電子發(fā)燒友的獨家專訪時,分享了LF AI & Data基金會在中國取得的階段性成果,以及開源大模型商業(yè)落地面臨的挑戰(zhàn)。
開源的大模型趨勢勢不可擋,基金會項目推動技術(shù)和應(yīng)用的深度融合
LF AI & Data 基金會主席孟偉對記者表示,2024年是開源社區(qū)大發(fā)展的一年,LF AI & Data社區(qū)的開發(fā)者數(shù)量已超過10萬,貢獻(xiàn)者組織超過200個,開源項目多達(dá)70個,代碼貢獻(xiàn)每月都在持續(xù)增長。基金會的高級會員包括AWS、微軟、愛立信、華為、OPPO、中興通訊、Intel、英偉達(dá)等13家大公司。
他強(qiáng)調(diào),從2023年至今,我們進(jìn)入了算力時代,英偉達(dá)市值在2023年超越3萬億美元,超越了蘋果和谷歌。隨著生成式AI的興起,AI的落地成為了行業(yè)的挑戰(zhàn)和機(jī)遇。中國信通院2024年發(fā)布的《全球數(shù)字經(jīng)濟(jì)白皮書》顯示,全球基礎(chǔ)大模型數(shù)量達(dá)到1328個,其中美國占44%,中國占36%。
孟偉先生分析說:“我們認(rèn)為,基座大模型已經(jīng)足夠,但在行業(yè)應(yīng)用中,大模型面臨四大挑戰(zhàn):一是行業(yè)知識不足,二是算力不足,三是合規(guī)治理水平不足,四是區(qū)域間發(fā)展不均衡。”
LF AI & Data是全球最大的開源人工智能基金會,但是現(xiàn)在全球人工智能開源有三種模式:一、公司來推動的,比如Google、Meta自己去開源一些項目,它們有足夠的影響力和社區(qū),把開源項目和生態(tài)做起來;二、大模型托管平臺的大模型項目,各行業(yè)大模型或者通用大模型放到平臺進(jìn)行托管,并且有相關(guān)的排名;三、基金會模式,就是LF AI & Data采用的模式,集中力量辦大事。把業(yè)界所有的力量都放到基金會里面,有硬件公司如英偉達(dá)、英特爾;也有基礎(chǔ)設(shè)施的公司如華為、中興通訊;也有軟件及服務(wù)型提供商,如微軟公司、AWS等。
今年8月,IDC中國分析師曾對記者表示,大模型今年一大趨勢是開源和閉源共存,共同促進(jìn)大模型應(yīng)用生態(tài)走向繁榮。更多企業(yè)選擇開源大模型來構(gòu)建自身的應(yīng)用。現(xiàn)有開源模型的參數(shù)大多數(shù)在十億到千億之間,基于MoE架構(gòu)的稀疏大模型參數(shù)可以達(dá)到萬億,微調(diào)和多種計算技術(shù)并行變得十分重要。
LF AI & Data 基金會主席孟偉也持同樣的觀點,他認(rèn)為,如果沒有開源大模型,行業(yè)AI落地的速度將慢至少4倍,主要有三大原因。一、閉源大模型成本非常高,對于實現(xiàn)私有化部署,去年商業(yè)大模型的價格是千萬級別的,今年雖降至百萬級,但對中小型公司而言仍成本極高,而且后期數(shù)據(jù)更新,涉及到是否要買后續(xù)的服務(wù),每年可能都需要增加維護(hù)的成本;二、開源大模型對用戶非常友好,例如一個初創(chuàng)型的公司只要懂一些大模型的知識、行業(yè)的數(shù)據(jù),就可以把行業(yè)大模型開發(fā)出來。三、開源大模型雖然解決軟件的問題,但是還有硬件AI芯片價格昂貴的問題,預(yù)計1-2年內(nèi)AI芯片價格將下降,從而加速AI技術(shù)在行業(yè)的落地。
電子發(fā)燒友對開發(fā)工程師的調(diào)研也顯示,目前備受歡迎的大模型,諸如ChatGPT和Bard,都建立在專有的閉源基礎(chǔ)上,這無疑限制了它們的使用,并導(dǎo)致了技術(shù)信息的透明度不足。然而,開源AI大模型(LLMs)正在嶄露頭角,它們不僅增強(qiáng)了數(shù)據(jù)的安全性和隱私保護(hù),還為用戶節(jié)省了成本,實現(xiàn)了代碼的透明性和模型化定制。更重要的是,開源LLMs積極支持社區(qū)的發(fā)展,推動整個領(lǐng)域的創(chuàng)新和發(fā)展。
孟偉介紹道,2024年4月,LF AI & Data基金會發(fā)起一個重要項目企業(yè)級開源平臺OPEA,9月份OPEA社區(qū)已有41家公司參與,產(chǎn)業(yè)生態(tài)持續(xù)壯大,目前還有10多家中國公司申請加入OPEA項目。OPEA的目標(biāo)是快速給企業(yè)部署AI,實現(xiàn)一鍵部署。企業(yè)只需裝配到用戶的容器服務(wù)器,設(shè)定基座大模型、向量庫等參數(shù),便可一鍵部署。因此,Linux基金會執(zhí)行董事Jim Zemlin將OPEA稱作AI界的Kubenates,給予很高的評價。
把握開源社區(qū)的核心價值觀,推動開源大模型商業(yè)落地抓手
“一個開源項目除了開發(fā)者以外,還要有企業(yè)和行業(yè)的用戶,要真正了解用戶的需求和行業(yè)的痛點,才能形成行業(yè)大模型應(yīng)用的商業(yè)閉環(huán)。” LF AI & Data 基金會主席孟偉對記者說。
孟偉強(qiáng)調(diào),LF AI & Data的使命是建立和支持開源開放的人工智能和數(shù)據(jù)的開源社區(qū),為成員提供協(xié)作和創(chuàng)新機(jī)會,推動人工智能和數(shù)據(jù)領(lǐng)域的行業(yè)落地。自2023年,他當(dāng)選為LF AI & Data基金會主席,主要負(fù)責(zé)基金會的日常運作管理,包括董事會的戰(zhàn)略規(guī)劃和項目預(yù)算。
今年,OPEA項目在中國落地,我們的目標(biāo)是把最終用戶請過來,例如金融行業(yè)、能源行業(yè)、教育行業(yè)、法律行業(yè)等等用戶。“從基金會的角度來說,我們明年將重點聚焦人工智能行業(yè)應(yīng)用,不管是軟件、硬件,我們都要明確落地的抓手,形成標(biāo)桿案例;第二個重點,LF AI & Data基金會已經(jīng)形成對全球芯片高新技術(shù)企業(yè)的吸引力,國際芯片大廠如英偉達(dá)、AMD、英特爾都已經(jīng)加入基金會,中國本土的芯片企業(yè)也應(yīng)當(dāng)積極參與到國際合作中來;第三,我們和RiSC-V基金會、PyTorch基金會的合作,也是明年重點推動的工作。”孟偉分享說。
談到開源大模型落地的挑戰(zhàn),孟偉認(rèn)為一方面來自有效數(shù)據(jù)的挑戰(zhàn),一方面行業(yè)大模型在可用性和許可協(xié)議還不健全。比如某些行業(yè)數(shù)據(jù)孤島現(xiàn)象嚴(yán)重,對于行業(yè)大模型的發(fā)展造成限制;通用大模型在特定行業(yè)的可用性程度并不高,需要進(jìn)一步的利用行業(yè)語料進(jìn)行精調(diào);此外,開源大模型項目里面包含算力投入、數(shù)據(jù)資產(chǎn),涉及到隱私問題、數(shù)據(jù)流通問題和安全問題,都還需要不斷解決。
在采訪的最后,LF AI & Data董事會主席孟偉總結(jié)說:“不管世界政治格局怎么變,開源還是講究包容和開放的。現(xiàn)在AI硬件受到地區(qū)的限制,但是開源軟件受到的影響還不多。我們不僅需要在中國把開源項目做好,還希望更多的公司和項目能夠參與到國際的交流和合作中去。”
發(fā)布評論請先 登錄
相關(guān)推薦
評論