精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型的效率騰飛,彩云科技做對(duì)了什么?

腦極體 ? 來(lái)源:腦極體 ? 作者:腦極體 ? 2024-11-16 13:59 ? 次閱讀

wKgZomc4NLqAQw_DAAoSb-MlHI0658.jpg

對(duì)于絕大多數(shù)AI創(chuàng)業(yè)者來(lái)說(shuō),AGI的技術(shù)信仰是月亮,商業(yè)化能賺到錢(qián)的應(yīng)用則是六便士,而一家中國(guó)公司,卻將月亮和六便士都握在了手中。

彩云科技的CEO袁行遠(yuǎn),一直將AGI作為自己的終生目標(biāo)。大模型被認(rèn)為是通往AGI之路,所以彩云科技決心為這條AGI之路掃清阻礙,通過(guò)優(yōu)化Transformer架構(gòu),助力大模型效率提升,為此開(kāi)發(fā)出DCFormer全新通用模型架構(gòu)。

敢于啃最難啃的骨頭,讓彩云科技與許多只敢停留在應(yīng)用層的AI公司,形成了鮮明對(duì)比。

這并不意味著彩云科技全是一群離群索居、不食人間煙火的極客。他們也打造了AI時(shí)代的爆款應(yīng)用,如彩云小夢(mèng)、彩云小譯和彩云天氣。其中2021 年上線的彩云小夢(mèng)1.0,是全球領(lǐng)先的 AIRPG 平臺(tái),同時(shí)發(fā)布了海外版Dreamily,目前已經(jīng)吸引了60%中國(guó)大陸用戶、30%歐美用戶、10%東南亞用戶,在平臺(tái)上進(jìn)行AI寫(xiě)作。

可以看到,彩云科技的AI商業(yè)化表現(xiàn)也很出色,是國(guó)內(nèi)為數(shù)不多能夠?qū)崿F(xiàn)盈利的AI公司。

只追求月亮?xí)I死,只追求商業(yè)化會(huì)活得庸俗。在AI的理想與現(xiàn)實(shí)之間,彩云科技究竟是如何找到平衡點(diǎn)的?

wKgZomc4NLuAJnlXAAJpHz4jMzM894.jpg

AGI通用人工智能,被認(rèn)為是人工智能領(lǐng)域的圣杯。而大模型,是目前通往AGI的必由之路。2023年大模型技術(shù)火爆全球,但技術(shù)進(jìn)化才剛剛開(kāi)始。比如大模型的核心技術(shù)突破——Transformer架構(gòu),就有一系列問(wèn)題有待解決。

想摘下AGI的圣杯,AI行業(yè)必須先跨越Transformer架構(gòu)的瓶頸:

1.效率瓶頸。大模型在并行計(jì)算過(guò)程中需要頻繁重寫(xiě)檢查點(diǎn)(checkpoint),延長(zhǎng)了訓(xùn)練周期。增強(qiáng)Transformer架構(gòu)的計(jì)算效率,可以大幅縮減計(jì)算時(shí)間,提升大模型的開(kāi)發(fā)效率。

2.能源瓶頸。大模型參數(shù)規(guī)模邁向超萬(wàn)億,會(huì)消耗巨額電力資源,有新聞報(bào)道,一個(gè)十萬(wàn)億或五十萬(wàn)億參數(shù)的大模型就能用光一座小城市的所有電量。為了減少耗電量和能源負(fù)擔(dān),提升大模型的計(jì)算效率,縮短計(jì)算時(shí)間,已經(jīng)刻不容緩。

3.普及瓶頸。一味追求scale-up的大模型技術(shù),對(duì)算力、存儲(chǔ)、傳輸、運(yùn)維等各個(gè)資源的需求也直線上升,會(huì)帶來(lái)高昂的落地成本和部署難度。AI的廣泛應(yīng)用和普及,才能推動(dòng)各行各業(yè)智能化,所以大模型必須從追求“變大”到“變聰明”,底層Transformer架構(gòu)的優(yōu)化勢(shì)在必行。

正如袁行遠(yuǎn)所說(shuō),“沒(méi)有(計(jì)算)效率的提升,AI就是鏡花水月”。

為了有一天人類(lèi)能真正將AGI這枚月亮抱在懷里,彩云科技從一開(kāi)始就瞄準(zhǔn)了底層架構(gòu),主動(dòng)擔(dān)起了優(yōu)化Transformer架構(gòu)的技術(shù)挑戰(zhàn),也成為在這一領(lǐng)域率先取得顯著成果的中國(guó)公司。

wKgZomc4NL2AR2pkAAIqtVC3Yx4497.jpg

2024年5 月,彩云科技全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》發(fā)布在arXiv平臺(tái),并順利被AI頂會(huì)ICML2024收錄,論文評(píng)分高達(dá)7分,遠(yuǎn)高于今年平均分。同時(shí)受邀在今年7月登臺(tái)發(fā)表演講,成為9473篇論文中唯二斬獲Oral論文的中國(guó)企業(yè),另一家是華為。

wKgaomc4NL2AJYK0AABYJsEvS4E730.jpg

大家想必都很好奇,論文中發(fā)布的DCFormer架構(gòu)到底有什么過(guò)人之處?

我們可以把大模型訓(xùn)練,看作是一個(gè)大型復(fù)雜任務(wù),需要很多個(gè)打工人(注意力頭),背著自己的參數(shù)集和數(shù)據(jù)在干活。

而Transformer的核心組件——多頭注意力模塊(MHA),將查找選擇回路和變換回路給綁定在一塊兒了,交給同一個(gè)注意力頭。試想一下,當(dāng)一個(gè)打工人既得關(guān)注查找,又得關(guān)注變換,專注性就會(huì)受到損害,而且完成的工作大概率也跟別人有重復(fù),這就降低了整個(gè)組織的效率。

那更合理的辦法是什么呢?當(dāng)然就是多雇些人、專事專辦唄。讓不同的“注意力頭”關(guān)注不同方面,一群專業(yè)的人靈活協(xié)作,干的活效率更高,質(zhì)量也更好。

所以DCFormer框架,就是給注意力頭“減負(fù)”,來(lái)提高大模型的效率。

彩云科技提出的可動(dòng)態(tài)組合的多頭注意力(DCMHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動(dòng)態(tài)組合。這就為DCFormer框架帶來(lái)了幾個(gè)變化:

1.靈活性提高。由于DCMHA允許根據(jù)輸入動(dòng)態(tài)組合不同的查找和變換回路,讓?xiě)?yīng)用了DCFormer的模型,能夠更靈活地處理復(fù)雜任務(wù)。

2.表達(dá)能力提高。MHA的固定綁定導(dǎo)致模型無(wú)法充分捕捉輸入數(shù)據(jù)的多個(gè)不同特性,表達(dá)能力也受到影響。DCMHA從根本上提升了模型的表達(dá)能力。

wKgZomc4NL6AE02pAABWwChQ9P0398.jpg

3.效率提高。查找和變換被固定綁定,會(huì)導(dǎo)致不同的注意力頭學(xué)習(xí)到相似的信息,造成功能上的重復(fù)冗余,不僅降低了計(jì)算效率,還會(huì)浪費(fèi)計(jì)算資源。通過(guò)可動(dòng)態(tài)組合的多頭注意力(DCMHA)解綁之后,DCFormer框架實(shí)現(xiàn)了對(duì)Transformer架構(gòu)1.7—2倍的提升,也可以讓模型成本進(jìn)一步下降。

總結(jié)一下,DCFormer框架從底層改變了注意力頭的組合方式。如果說(shuō)打破Transformer計(jì)算瓶頸,加速AGI進(jìn)程,是彩云科技的逐月之旅。那么DCFormer框架,就是彩云科技為夢(mèng)想所打造的一座天梯,讓大模型在上面實(shí)現(xiàn)了效率、性能、成本優(yōu)化等多方面的飛躍。

沿著DCFormer的天梯望過(guò)去,一個(gè)大模型為核心的AI時(shí)代,好像離我們真的不遠(yuǎn)了。

wKgaomc4NL6AdCJKAAKEJwa9VwM460.jpg

避免這一輪大模型的AI浪潮走向泡沫,必須讓技術(shù)致用,形成商業(yè)閉環(huán)。賺到六便士,是AI獲得長(zhǎng)期生命力的前提。

從技術(shù)到商業(yè)的轉(zhuǎn)化,彩云科技同樣敢為人先。目前,彩云科技的AI應(yīng)用已經(jīng)獲得了在DCFormer架構(gòu)的一系列助益,有望實(shí)現(xiàn)商業(yè)騰飛。

比如既有能力的大幅升級(jí)。作為國(guó)內(nèi)首個(gè)分鐘級(jí)天氣預(yù)報(bào),街道級(jí)定位精度的天氣預(yù)報(bào)服務(wù),彩云天氣基于DCFormer帶來(lái)的模型效率提升,有望在未來(lái)將分鐘級(jí)的高準(zhǔn)確率預(yù)測(cè)時(shí)長(zhǎng)從2小時(shí)擴(kuò)展到3—12小時(shí),能力進(jìn)一步提升。

wKgZomc4NL-ALftPAAStOo-w0cU614.jpg

再比如全新能力的拓展。彩云科技旗下AI RPG平臺(tái)彩云小夢(mèng),采用了全新的DCFormer架構(gòu),V4、V5版本有望擴(kuò)展到2000-5000字的創(chuàng)作,再通過(guò)故事工程優(yōu)化,目標(biāo)是一年內(nèi)可以輕松創(chuàng)作出達(dá)到專業(yè)作家水平的5萬(wàn)字長(zhǎng)度中篇故事,同時(shí)小夢(mèng)角色扮演的故事體驗(yàn),也能達(dá)到專業(yè)編劇的水平。憑借優(yōu)異的性能,彩云小夢(mèng)在小說(shuō)續(xù)寫(xiě)、AI陪伴等領(lǐng)域,已經(jīng)實(shí)現(xiàn)了用戶使用時(shí)長(zhǎng)斷崖式的領(lǐng)先。

wKgaomc4NL-AEqB3AAI-YHlj8-w864.jpg

不難看到,DCFormer架構(gòu)為彩云科技的AI產(chǎn)品化、AI商業(yè)化,奠定了騰飛的基礎(chǔ)條件。也證明,唯有基于底層技術(shù)創(chuàng)新,AI產(chǎn)品才能避免同質(zhì)化競(jìng)爭(zhēng),打造出極具說(shuō)服力和差異化的產(chǎn)品體驗(yàn),從而建立碾壓式的市場(chǎng)優(yōu)勢(shì)。

wKgZomc4NMGAK_MXAAItOKqxkj0533.jpg

大模型爆火以來(lái),國(guó)外做底層創(chuàng)新、國(guó)內(nèi)做應(yīng)用改良,似乎成了慣例。

中國(guó)AI企業(yè)不敢向底層創(chuàng)新下大力氣,更希望低頭撿起六便士,并不是不愿意抬頭追逐月亮,而是技術(shù)代際的現(xiàn)實(shí)差距、算力資源受限的實(shí)際情況、商業(yè)回報(bào)的約束和壓力,都是切實(shí)存在的。

而提到那些敢于逐月的AI公司,我們第一時(shí)間想到的是國(guó)內(nèi)科技巨頭,很少人知道彩云科技是國(guó)內(nèi)最早做LLM(大語(yǔ)言模型)的公司之一,而且敢于追逐AGI的夢(mèng)想,向底層技術(shù)發(fā)起沖鋒。

既能仰頭逐月,也能低頭搞好商業(yè)化,彩云科技可以作為一個(gè)國(guó)內(nèi)AI公司找到技術(shù)和商業(yè)平衡點(diǎn)的成功樣本。

彩云科技區(qū)別于主流AI公司的獨(dú)特之處,在于其是個(gè)少見(jiàn)的“三有少年”:

有信仰。作為一個(gè)體量較小的科技公司,彩云科技利用效率更高的模型架構(gòu),在與世界頂級(jí)人工智能企業(yè)的對(duì)抗中取得優(yōu)勢(shì)。如果沒(méi)有AGI的技術(shù)信仰,一個(gè)小公司是想不到、不敢做優(yōu)化Transformer架構(gòu)這件事的。

有技術(shù)產(chǎn)品化的能力。Transformer架構(gòu)由谷歌率先提出,卻被OpenAI摘了桃子,ChatGPT成為這一輪LLM里程碑,這得益于chatbot聊天機(jī)器人功能的產(chǎn)品化程度更高,更貼近大眾。彩云科技的成功也在于此,并沒(méi)有單純地只發(fā)paper,而是盡快將DCFormer與產(chǎn)品集成,讓技術(shù)盡快轉(zhuǎn)化為產(chǎn)品落地。這種技術(shù)產(chǎn)品化的能力,可以讓底層創(chuàng)新快速投向市場(chǎng),形成良性循環(huán)。

有長(zhǎng)坡厚雪的環(huán)境。創(chuàng)新,需要長(zhǎng)期耐心地投入;產(chǎn)品化,需要深入行業(yè)和用戶之中的經(jīng)驗(yàn)和感覺(jué)。這就是巴菲特所說(shuō)的“長(zhǎng)坡厚雪”,要有足夠強(qiáng)的盈利和長(zhǎng)期增長(zhǎng)的賽道。這是很多AI初創(chuàng)企業(yè)所缺乏,但彩云科技恰好具備的。十年間,彩云科技打造的數(shù)款足夠成熟和商業(yè)化的AI產(chǎn)品,為技術(shù)創(chuàng)新?tīng)I(yíng)造了長(zhǎng)坡厚雪的良好環(huán)境。

“三有少年”彩云科技,找到了理想與現(xiàn)實(shí)之間的平衡點(diǎn),正沿著DCFormer架構(gòu)的天梯,朝著AGI的月亮飛翔。這條彩云逐月之路,也讓我們看到了AI產(chǎn)品化、商業(yè)化的清晰增長(zhǎng)路徑。

wKgZomc4NMKAOcZmAAHtSFhDzH8675.jpg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30106

    瀏覽量

    268398
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2322

    瀏覽量

    2479
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大裁員后轉(zhuǎn)攻物聯(lián)網(wǎng),Intel做對(duì)了

    日前,Intel宣布裁員12000,并將公司的發(fā)展中心放在物聯(lián)網(wǎng)領(lǐng)域,Intel的這一步走對(duì)了嗎?
    發(fā)表于 04-22 11:08 ?903次閱讀

    G473使用TIM1非對(duì)稱模式做移相,用TIM8Combined PWM模式做對(duì)角的移相與門(mén)輸出,為什么時(shí)序不對(duì)?

    G473使用TIM1非對(duì)稱模式做移相,用TIM8Combined PWM模式做對(duì)角的移相與門(mén)輸出,為啥占空比對(duì)了時(shí)序不對(duì)?
    發(fā)表于 03-14 07:49

    一種基于模型效率估計(jì)算法

    。通常異步電機(jī)的故障是由于長(zhǎng)時(shí)間運(yùn)行損耗增加、效率降低,所以電機(jī)檢測(cè)比較重要的一項(xiàng)是檢測(cè)效率。一般情況會(huì)有專用測(cè)試儀器來(lái)檢測(cè)電機(jī)效率,但是都需要拆下電機(jī),安裝到專用儀器上進(jìn)行測(cè)試。本文提出了一種基于
    發(fā)表于 09-01 08:09

    級(jí)聯(lián)H橋多電平并網(wǎng)逆變器的模型預(yù)測(cè)控制研究_楊騰飛

    級(jí)聯(lián)H橋多電平并網(wǎng)逆變器的模型預(yù)測(cè)控制研究_楊騰飛
    發(fā)表于 01-08 10:57 ?8次下載

    基于CRV_LMS算法的語(yǔ)音增強(qiáng)技術(shù)的研究_伍彩云

    基于CRV_LMS算法的語(yǔ)音增強(qiáng)技術(shù)的研究_伍彩云
    發(fā)表于 03-19 11:45 ?0次下載

    基于雙線性濾波器的自適應(yīng)有源消聲算法的研究_伍彩云

    基于雙線性濾波器的自適應(yīng)有源消聲算法的研究_伍彩云
    發(fā)表于 03-16 09:25 ?1次下載

    聯(lián)想數(shù)據(jù)中心業(yè)務(wù)做對(duì)了什么?

    聯(lián)想數(shù)據(jù)中心業(yè)務(wù)做對(duì)了什么? 聯(lián)想數(shù)據(jù)中心在近幾個(gè)季度有了很強(qiáng)勁的增長(zhǎng),在財(cái)報(bào)會(huì)上,楊元慶夸贊數(shù)據(jù)中心業(yè)務(wù)給集團(tuán)業(yè)績(jī)提供強(qiáng)力引擎,那么,聯(lián)想數(shù)據(jù)中心業(yè)務(wù)做對(duì)了什么? 聯(lián)想數(shù)據(jù)中心集團(tuán)副總裁,OEM
    發(fā)表于 10-01 09:41 ?772次閱讀

    告別喬布斯 庫(kù)克做對(duì)了什么?

    上任第十年,庫(kù)克功與過(guò)2020-09-16 13:43:32 創(chuàng)事記 微博 作者: 連線Insight 我有話說(shuō)(79人參與) 來(lái)源:連線Insight(ID:lxinsight) 文/劉璐明 2011年8月11日,在家中休養(yǎng)的喬布斯給蒂姆庫(kù)克打了一通電話,希望他到自己家中去,當(dāng)時(shí)庫(kù)克還在擔(dān)任蘋(píng)果COO,而這通電話不僅預(yù)告了一個(gè)時(shí)代的結(jié)束,也改變了庫(kù)克的人生軌跡。 庫(kù)克回憶起那一天,在電話中問(wèn)道,應(yīng)該什么時(shí)間去?,喬布斯回答現(xiàn)在。 在那場(chǎng)漫長(zhǎng)的談話中,喬布斯突然宣布了一個(gè)決定,讓庫(kù)克擔(dān)任
    的頭像 發(fā)表于 09-17 18:08 ?2618次閱讀

    為何中移動(dòng)5G時(shí)代重倉(cāng)和彩云,投億級(jí)資源劍指百億產(chǎn)業(yè)?

    就在同一日舉行的中國(guó)移動(dòng)產(chǎn)品創(chuàng)新開(kāi)放合作論壇上,和彩云生態(tài)白皮書(shū)也是被隆重推薦的重磅內(nèi)容,該白皮書(shū)的和彩云生態(tài)計(jì)劃宣稱:中國(guó)移動(dòng)將在 2021 年投入 10 億級(jí)資源,引入 100+合作伙伴搭建云端數(shù)字消費(fèi)新場(chǎng)景創(chuàng)造“百億生態(tài)”。
    的頭像 發(fā)表于 12-14 10:24 ?1863次閱讀

    數(shù)字電源管理做對(duì)了-電力電子技術(shù)2009年8月

    數(shù)字電源管理做對(duì)了-電力電子技術(shù)2009年8月
    發(fā)表于 04-16 19:01 ?12次下載
    數(shù)字電源管理<b class='flag-5'>做對(duì)了</b>-電力電子技術(shù)2009年8月

    RT-Thread全球技術(shù)大會(huì):RISC-V自身做對(duì)了什么?

    RT-Thread全球技術(shù)大會(huì):RISC-V自身做對(duì)了什么?清晰的定位,設(shè)計(jì)優(yōu)美簡(jiǎn)潔,支持了從教學(xué)、研究到工業(yè)界的無(wú)縫切換。 ? ? ? ? ? ? ? 審核編輯:彭靜
    的頭像 發(fā)表于 05-27 10:08 ?1011次閱讀
    RT-Thread全球技術(shù)大會(huì):RISC-V自身<b class='flag-5'>做對(duì)了</b>什么?

    RT-Thread全球技術(shù)大會(huì):RISC-V自身做對(duì)了什么

      RISC-V自身做對(duì)了什么:1、主要做到清晰的定位 2、支持從教學(xué)、研究到工業(yè)界的無(wú)縫切換 3、成立RISC-V基金會(huì)
    的頭像 發(fā)表于 05-27 10:12 ?842次閱讀
    RT-Thread全球技術(shù)大會(huì):RISC-V自身<b class='flag-5'>做對(duì)了</b>什么

    連拓精密氣密性測(cè)試儀操作步驟,你做對(duì)了嗎?

    人們對(duì)防水性能的要求提高很多,比如智能穿戴,手機(jī)行業(yè),戶外照明等都需要防水功能。所以廠家在生產(chǎn)過(guò)程中,后續(xù)驗(yàn)收過(guò)程都會(huì)進(jìn)行對(duì)其產(chǎn)品的氣密性防水性能測(cè)試。那對(duì)于正確的氣密性測(cè)試儀正確操作步驟,你真的做對(duì)了嗎?如何延長(zhǎng)氣密性測(cè)試儀的壽命呢?下面讓連拓精密為您解答吧!
    的頭像 發(fā)表于 10-29 16:06 ?973次閱讀
    連拓精密氣密性測(cè)試儀操作步驟,你<b class='flag-5'>做對(duì)了</b>嗎?

    OpenAI到底做對(duì)了什么?OpenAI發(fā)展的5大技術(shù)路線

    為什么AGI這樣史詩(shī)級(jí)的革命,背后的核心推手竟然是OpenAI這樣的創(chuàng)業(yè)公司?OpenAI到底做對(duì)了什么?
    發(fā)表于 07-24 10:50 ?1908次閱讀
    OpenAI到底<b class='flag-5'>做對(duì)了</b>什么?OpenAI發(fā)展的5大技術(shù)路線

    亞太半導(dǎo)體騰飛.zip

    亞太半導(dǎo)體騰飛
    發(fā)表于 01-13 09:06 ?1次下載