隨著人工智能市場的火爆,越來越多的芯片廠商開始推出AI芯片,與此同時(shí)很多AI算法廠商也開始紛紛推出自己的AI芯片。一時(shí)間AI芯片已成為當(dāng)下最為市場最為關(guān)注的焦點(diǎn)。
早在去年11月,礦機(jī)芯片廠商比特大陸就推出了自己的首款人工智能芯片BM1680;今年年初,國內(nèi)的聲紋識別廠商Speakin也曝光了自己的即將推出的聲紋識別模組;今年4月,國內(nèi)的人臉識別廠商云天勵(lì)飛也確認(rèn)將會在年內(nèi)推出自己的AI芯片;5月16日,云知聲發(fā)布首款面向物聯(lián)網(wǎng)領(lǐng)域的AI系列芯片UniOne以及第一代芯片“雨燕”;5月24日,出門問問發(fā)布旗下首款A(yù)I語音芯片模組問芯Mobvoi A1;7月2日,Rokid發(fā)布旗下AI語音專用SoC芯片KAMINO18;而在同一時(shí)間,語音識別廠商思必馳CEO高始興也確認(rèn)公司正在打造AI語音ASIC芯片,預(yù)計(jì)今年下半年流片。
近日,云天勵(lì)飛首款自主知識產(chǎn)權(quán)的AI芯片IPU已成功流片。與此同時(shí),比特大陸的第二代AI芯片BM1682正式曝光。下面我們來看詳細(xì)介紹:
云天勵(lì)飛自主產(chǎn)權(quán)AI芯片IPU已于16日流片
今年4月25日,在云天勵(lì)飛召開的芯片專題媒體溝通會上,云天勵(lì)飛聯(lián)合創(chuàng)始人、CEO陳寧提到,云天勵(lì)飛正在研發(fā)的一款面向嵌入式端的邊緣人工智能芯片IPU (inteligence processor unit)已取得階段性成果,計(jì)劃今年年中流片,明年上半年正式商用。時(shí)隔僅不到4個(gè)月之后,8月16日,云天勵(lì)飛的IPU已成功流片。
云天勵(lì)飛IPU聚焦嵌入式視覺智能終端
據(jù)介紹,云天勵(lì)飛AI芯片的技術(shù)路線是通過設(shè)計(jì)一系列面向多層神經(jīng)網(wǎng)絡(luò)的可編程處理器,應(yīng)對人工智能算法的快速迭代。“我們首創(chuàng)的‘自適應(yīng)云+端’AI系統(tǒng)架構(gòu),可通過云端邏輯控制終端芯片,自動更新終端芯片的算法和功能。”據(jù)云天勵(lì)飛聯(lián)合創(chuàng)始人、CEO陳寧介紹,云天勵(lì)飛自主研發(fā)的專用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器芯片,采用ASIP設(shè)計(jì)思路,提供ASIC級別高性能和低功耗,也能提供處理器級別的指令集靈活性。同時(shí),采用異構(gòu)計(jì)算多核SOC架構(gòu),集成多處理器單元,并行分布式處理與集中控制系統(tǒng)。
與傳統(tǒng)芯片迭代速度相比,AI芯片迭代更快。“目前來說,算法每半個(gè)月迭代一次,AI芯片則要同步迭代,而傳統(tǒng)芯片的迭代是按年計(jì)算。現(xiàn)有的CPU或GPU無法滿足嵌入式端視覺AI應(yīng)用。”據(jù)云天勵(lì)飛研發(fā)副總李愛軍表示,通用CPU在神經(jīng)網(wǎng)絡(luò)加速上速度慢,性能上滿足不了對嵌入式端的需求;GPU性能是夠的,但功耗高、成本居高不下。“所以,我們覺得有必要去研究適應(yīng)新型神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)處理器架構(gòu)芯片。”而云天勵(lì)飛研發(fā)的芯片是面向嵌入式端的邊緣計(jì)算人工智能芯片,專注智能視覺,聚焦在安防、智能商業(yè)等領(lǐng)域的場景應(yīng)用。
擁有國內(nèi)頂尖ASIP矢量處理器芯片設(shè)計(jì)團(tuán)隊(duì)
“云天勵(lì)飛做芯片不是臨時(shí)起意,而是從公司創(chuàng)立之初就開始了芯片的布局。”據(jù)陳寧介紹,云天勵(lì)飛早在2014年就有了完整的“機(jī)器學(xué)習(xí)與視覺智能處理器”AI芯片解決方案,并獲得2015年深圳孔雀團(tuán)隊(duì)第一名。
在當(dāng)時(shí),云天勵(lì)飛的芯片研發(fā)團(tuán)隊(duì)是國內(nèi)AI芯片界唯一有芯片商用經(jīng)驗(yàn)的團(tuán)隊(duì),陳寧本人是中國第一款商用矢量處理器芯片的設(shè)計(jì)者,而芯片團(tuán)隊(duì)主導(dǎo)者李愛軍是原中興通訊手機(jī)芯片的研發(fā)負(fù)責(zé)人,主導(dǎo)研發(fā)了國內(nèi)第一顆28nm手機(jī)芯片商用(2010)和國內(nèi)首款LTE多模手機(jī)芯片商用。
陳寧說,“我們的芯片研發(fā)團(tuán)隊(duì)是國內(nèi)頂尖的ASIP矢量處理器芯片設(shè)計(jì)團(tuán)隊(duì),主要的骨干團(tuán)隊(duì)成員有豐富的矢量處理器、復(fù)雜SoC芯片設(shè)計(jì)經(jīng)驗(yàn),且平均設(shè)計(jì)經(jīng)驗(yàn)超過10年。”
IPU具有高能低耗、可編程、可云端升級等特點(diǎn)
據(jù)了解,云天勵(lì)飛在2016年完成了第一代深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器NNP100的研制,并基于FPGA載體實(shí)現(xiàn)商用。
李愛軍介紹說,NNP100深度結(jié)合云天勵(lì)飛自研深度學(xué)習(xí)算法,與自研神經(jīng)網(wǎng)絡(luò)模型深度耦合,具有強(qiáng)大的運(yùn)算處理能力以及靈活的模型pooling能力,設(shè)計(jì)上支持PE數(shù)量根據(jù)場景需求任意擴(kuò)展和裁剪,非常靈活,同時(shí)它又具有高性能、低時(shí)延和低功耗技術(shù)優(yōu)勢。
“相比之前的應(yīng)用效果,采用NNP100后FPGA加速卡,計(jì)算性能相比GPU提升2倍,功耗減低5倍,時(shí)延減低100倍。”李愛軍介紹,目前NNP100應(yīng)用在云天勵(lì)飛的DeepEye100智能盒子和DeepEye200服務(wù)器加速卡產(chǎn)品上。基于NNP100的技術(shù)基礎(chǔ),云天勵(lì)飛已經(jīng)在研發(fā)第二代深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器NNP200,并取得階段性成果。NNP200將集成于云天勵(lì)飛IPU(inteligenceprocessorunit)芯片上,并用于智能終端產(chǎn)品。
據(jù)介紹,云天勵(lì)飛的視覺AI芯片具有2Tops/W的高能量效率。與Nvidia開源的nvDLA相比,相同運(yùn)算力下,在很小的內(nèi)存帶寬下,算法模型效率可以提高18倍。與麒麟970相比,相同運(yùn)算力下,比970的性能提高4.4倍。
“云天的芯片除了高能低耗的優(yōu)勢之外,還能實(shí)現(xiàn)可編程,遠(yuǎn)程一鍵升級。芯片可同時(shí)處理多路高清視頻,此外,通過片間級聯(lián)還可進(jìn)行擴(kuò)展。”李愛軍說,多芯片級聯(lián),相當(dāng)于搭積木一樣,一顆一顆之間通過板級互聯(lián)進(jìn)行擴(kuò)展。通過級聯(lián)擴(kuò)展最多可以同時(shí)處理64路視頻。
“我們采用業(yè)界領(lǐng)先的22nm工藝,工藝的性能、功耗、面積經(jīng)過仿真、分析、比對,對比業(yè)界主流的28nm工藝,都具有一定優(yōu)勢,性能提升約10%,功耗降低約15%,面積減小15%-20%。”陳寧還提到,云天勵(lì)飛的IPU芯片計(jì)劃在今年年中實(shí)現(xiàn)流片,并在明年上半年推向商用,最終通過模式創(chuàng)新,打造一個(gè)開放賦能的芯片平臺。
云天IPU最大亮點(diǎn)——對場景理解更為深刻
相比傳統(tǒng)的芯片,AI芯片更注重“從場景到算法,從算法到芯片”。正因?yàn)椴煌谝酝鶑?a target="_blank">硬件出發(fā)的思路,AI芯片的行業(yè)形態(tài)和商業(yè)模式正在發(fā)生著變化。目前,AI芯片的應(yīng)用場景主要集中在安防、智能家居和消費(fèi)電子、自動駕駛、云計(jì)算、智慧城市等行業(yè)。
“由于目前還不存在適用于所有通用算法的嵌入式AI芯片,確定芯片的應(yīng)用場景就顯得尤為重要。”陳寧提到,過往三年,云天勵(lì)飛深耕安防領(lǐng)域,最先提出了針對安防行業(yè)“云+端”的解決方案,真正做到將AI技術(shù)落地于垂直場景。
來源:智能科技熱點(diǎn)
深度分析:比特大陸二代AI芯片性能躍升,專注安防視頻
近日,坊間傳聞許久的比特大陸第二代人工智能芯片BM1682,正式出現(xiàn)在其官網(wǎng)頁面。根據(jù)比特大陸一貫神秘務(wù)實(shí)的風(fēng)格,相信基于BM1682的板卡、服務(wù)器也已經(jīng)備好了。筆者在芯片行業(yè)浸淫十多年,嘗試根據(jù)比特大陸官網(wǎng)公布的產(chǎn)品白皮書,來分析一下這兩代人工智能芯片之間的異同,嘗試談一談比特大陸在人工智能領(lǐng)域的意圖和野心。
2017年第4季度,比特大陸正式推出了其人工智能品牌算豐(SOPHON),發(fā)布了全球首款公開發(fā)售的TPU(Tensor Processing Unit張量計(jì)算單元)芯片BM1680,專門用于人工智能中的深度學(xué)習(xí)加速。時(shí)隔不足一年,2018年3月,比特大陸又推出其第二款TPU芯片BM1682,根據(jù)初步披露的資料顯示,BM1682是一塊專門用于圖像/視頻處理方向的人工智能芯片。
BM1682與BM1680使用了相同的深度學(xué)習(xí)算法的硬件加速模塊,但相比BM1680而言,BM1682具有更強(qiáng)大的深度學(xué)習(xí)算法執(zhí)行能力,此外BM1682還增加了視頻處理子模塊,以及適用于具體應(yīng)用場景的諸多功能模塊。
下面我們對其兩者進(jìn)行一個(gè)具體的對比評測:
頂層架構(gòu)——BM1682定位更細(xì)分
從頂層架構(gòu)可以看出,BM1680和BM1682均集成了深度學(xué)習(xí)算法所用到的核心模塊NPUs。NPU是比特大陸自行研發(fā)的深度學(xué)習(xí)算法硬件加速器,用于加速深度學(xué)習(xí)算法的執(zhí)行速度。
從頂層架構(gòu)圖上可以看到,BM1680比BM1682額外集成了高度定制的BMDNN Chip Link Subsystem。該子模塊可以在高速SerDes上提供穩(wěn)定、靈活、低延遲的鏈路。用戶可以通過該鏈路將多個(gè)BM1680芯片連接成一個(gè)統(tǒng)一的整體,使其協(xié)同工作,大大提高系統(tǒng)的運(yùn)算能力。BM1682并沒有集成此模塊,這大概是基于BM1682專一化的市場應(yīng)用定位,以及處理速度足夠滿足用戶對圖像/視頻處理需求而考慮的。
從頂層架構(gòu)圖上可以看到與BM1680相比,BM1682芯片的整體架構(gòu)發(fā)生了不小的變化,其定位則更加細(xì)分明確。從右上角增加的Video Subsystem模塊可以明確看出,該款芯片定位于圖像/視頻處理方向。
模塊細(xì)節(jié)——BM1682設(shè)計(jì)更豐富
BM1682的深度學(xué)習(xí)加速的核心功能模塊與BM1680是相同的。兩款芯片均包含了深度學(xué)習(xí)的核心單元—硬件加速器NPU Subsystem。兩者的NPU Subsystem均各自集成了64個(gè)NPU單元,統(tǒng)一由NPU Schedule Engine進(jìn)行調(diào)度(BM1682架構(gòu)圖中未體現(xiàn)),最大化的提高了NPUs的效率,加快了深度學(xué)習(xí)算法inference (推演)與training (訓(xùn)練)的速度。根據(jù)初步資料顯示,兩者在MCU的配置上是有些許差異的,但由于資料不全面,故無法評斷出兩者的MCU處理能力的差別。
除了深度學(xué)習(xí)算法硬件加速模塊(NPUs)、用于高速連接其余BM1680的Chip Link模塊之外,BM1680還提供了4個(gè)獨(dú)立的DDR4通道,最高支持16GB的DDR3 或 DDR4 DRAM拓展,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。BM1680還加入了Global DMA模塊。DMA用于提供數(shù)據(jù)搬移功能,這可以在大塊數(shù)據(jù)進(jìn)行讀寫搬移時(shí)不占用MCU的資源,如在DDR4 的RAM中搬移數(shù)據(jù)時(shí)。對于大數(shù)據(jù)量的深度學(xué)習(xí)系統(tǒng),DMA可以極大的提高效率。BM1680的Peripheral Subsystem 提供了UART、SPI、IIC與GPIO等接口,用于外接傳感器,或與外界進(jìn)行通訊、記錄、控制等操作。這些接口都屬于通用接口,可見BM1680的定位就是通用深度學(xué)習(xí)芯片,在外設(shè)上沒有給與太多支持。
從架構(gòu)圖看,BM1682明顯復(fù)雜了很多。其額外增加了AP (Application Processor) Subsystem和Video Subsystem(視頻處理系統(tǒng))。Video Subsystem(視頻子系統(tǒng))則主要專注于視頻預(yù)處理的相關(guān)任務(wù)。
BM1682的Video Subsystem提供了2個(gè)H.264視頻解碼器,1個(gè)H.265解碼器。H.264 /H.265均為視頻編碼方式,也是比較流行的視頻編碼的兩種方式。相對而言,H.265視頻編碼比H.264具有更高的壓縮比、更強(qiáng)的網(wǎng)絡(luò)糾錯(cuò)適應(yīng)能力,但考慮到現(xiàn)階段在安防、智能家居和互聯(lián)網(wǎng)視頻領(lǐng)域中仍然還是以H.264編碼的視頻和視頻設(shè)備為主,兩者2:1的譯碼器數(shù)量在視頻支持類型和解碼帶寬做了一個(gè)合適的權(quán)衡。比較貼心的是,BM1682提供了Video Post-Processing功能,該子模塊用于對采用H.264或H.265編碼的視頻進(jìn)行渲染處理,這些渲染處理主要包括顏色空間轉(zhuǎn)換、視頻剪裁、縮放操作、仿射變換、多幀拼接等常規(guī)操作。經(jīng)過Video Post-Processing對外界進(jìn)入的視頻數(shù)據(jù)進(jìn)行硬件加速預(yù)處理后,Video Subsystem會將處理后數(shù)據(jù)通過總線傳輸給NPUs、DRAM、AP System或外接存儲設(shè)備,然后進(jìn)行后續(xù)的深度學(xué)習(xí)處理等操作。
BM1682提供了豐富的外界交互接口,如高速接口PCIE、以太網(wǎng)、SDIO3.0、WIFI等。BM1682將數(shù)據(jù)處理完畢后可以很方便的通過PCIE接口、以太網(wǎng)接口、或者WIFI接口將數(shù)據(jù)傳輸?shù)娇偡?wù)器。若是條件限制沒有網(wǎng)絡(luò)接入點(diǎn),用戶可以選擇通過接入SDIO3.0的eMMC存儲器或是PCIE式存儲器將數(shù)據(jù)存儲到本地存儲裝置。可見,BM1682對其可能的應(yīng)用場景做了充分的考慮并給予了硬件支持,用戶可以根據(jù)需求,靈活方便的進(jìn)行配置。
Peripheral Subsystem方面,BM1682比BM1680要豐富的多,這大大方便了用戶進(jìn)行系統(tǒng)拓展,如添加額外傳感器等。BM1682的外設(shè)包括2個(gè)SPI接口、4個(gè)UART接口、4個(gè)IIC、4路PWM生成器、一塊內(nèi)嵌式SPI Flash、WDG、Timer、GPIO、PVT Sensor、Top Reg、Efuse、ROM。由給出的外設(shè)可以看到,BM1682的設(shè)計(jì)考慮了配置、存儲、對外界系統(tǒng)實(shí)時(shí)控制、以及加密保護(hù)等功能,極大提高了系統(tǒng)的靈活性、安全性,省卻了用戶額外添加相關(guān)功能的開發(fā)成本。
性能分析——BM1682極大提升
NPU深度學(xué)習(xí)硬件加速器是人工智能的核心。兩者NPUs模塊集成了64個(gè)NPUs單元,通過NPU Schedule Engine進(jìn)行調(diào)度。BM1682中每個(gè)NPU含有32個(gè)EUs,BM1680未知。根據(jù)BM1680、BM1682數(shù)據(jù)手冊顯示,單片BM1680單精度運(yùn)算速度為2TFLops;單片BM1682單精度運(yùn)算速度為3TFLops。BM1682的單片運(yùn)算速度高出BM1680 50%。
BM1680單片的運(yùn)行速度低于BM1682,但BM1680支持級聯(lián)工作模式,數(shù)個(gè)BM1680可以通過高速的Chip Link Subsystem組成一個(gè)集群式的系統(tǒng),進(jìn)行更高處理量的運(yùn)算處理任務(wù)。BM1682不具備級聯(lián)功能。下圖為BM1680芯片的級聯(lián)連接示意圖。
級聯(lián)方式:每個(gè)Node代表一個(gè)BM1680
電學(xué)方面,根據(jù)兩者的數(shù)據(jù)手冊顯示:滿載工作時(shí)BM1680的TPD(Thermal Design Power熱設(shè)計(jì)功耗)為41W;:滿載工作時(shí)BM1682的TPD小于50W。從功耗角度分析,BM1680的2TFlops的NPUs速度應(yīng)該是有所保留的。
開發(fā)生態(tài)——兩代芯片都很到位
BM1680、BM1682均支持的主流的CNN/RNN/DNN深度學(xué)習(xí)架構(gòu),通過這兩款TPU芯片進(jìn)行硬件加速,可以極大的提高深度學(xué)習(xí)算法的執(zhí)行速度。當(dāng)然,BM1680和BM1682也可以通過基礎(chǔ)的矩陣運(yùn)算進(jìn)行深度學(xué)習(xí)的模型、架構(gòu)的搭建。
在開發(fā)生態(tài)方面,兩款芯片的支持也是很到位的。BM1680、BM1682均對后端用戶提供SDK;如果用戶需要進(jìn)行深度優(yōu)化以獲取算法最優(yōu)性能,可以聯(lián)系廠家獲得相關(guān)教學(xué)支持。
應(yīng)用領(lǐng)域——BM1682更專注圖像/視頻處理
由前述分析可知,BM1680為通用性人工智能芯片,其應(yīng)用方向沒有偏向性,芯片內(nèi)部主要集成了深度學(xué)習(xí)算法所需要的基本模塊,應(yīng)用各種人工智能的深度學(xué)習(xí)算法,通過添加相應(yīng)的外圍電路模塊,BM1680可以搭建成適用于任一個(gè)領(lǐng)域的深度學(xué)習(xí)系統(tǒng)——像圖片識別、自然語言處理、文本處理、金融、醫(yī)學(xué)等等大小領(lǐng)域均可選擇該芯片實(shí)現(xiàn)。BM1680更加具有靈活性。而且,BM1680可以進(jìn)行級聯(lián),所以對于需要處理巨大數(shù)據(jù)量的人工智能深度學(xué)習(xí)系統(tǒng),BM1680尤為合適。像企業(yè)級應(yīng)用、海量數(shù)據(jù)處理等方面,通過簡單的級聯(lián)BM1680就可以獲取相匹配的計(jì)算能力,靈活而強(qiáng)大。
而BM1682則是一個(gè)升級版的BM1680并配備了專門用于視頻處理的集成系統(tǒng),整個(gè)BM1682芯片搭載了視頻處理所需要的全部核心模塊,以及對其具體應(yīng)用場景適應(yīng)性的輔助模塊。BM1682對于需要進(jìn)行圖像/視頻處理的市場應(yīng)用可謂是十分便捷了。BM1682的輔助功能配置模塊自帶有線與無線網(wǎng)絡(luò)功能,對于視頻監(jiān)控方向的市場應(yīng)用十分方便,無線功能更是省略了網(wǎng)線布線的繁瑣施工,并且可用于實(shí)現(xiàn)遠(yuǎn)程監(jiān)控。對于一些沒有網(wǎng)絡(luò)的場合,如科研領(lǐng)域的野外視頻收集處理、閉路視頻監(jiān)控等,BM1682可以輕松的添加外置存儲裝置進(jìn)行數(shù)據(jù)備份收集。BM1682作為圖像/視頻方向深度學(xué)習(xí)的SoC片上系統(tǒng),市場前景很是廣闊,這款新品還是很值得期待的。
-
AI芯片
+關(guān)注
關(guān)注
17文章
1859瀏覽量
34908 -
比特大陸
+關(guān)注
關(guān)注
6文章
142瀏覽量
29860
原文標(biāo)題:云天勵(lì)飛IPU成功流片,比特大陸第二代AI芯片曝光!
文章出處:【微信號:icsmart,微信公眾號:芯智訊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論