作者:張迎輝
賽靈思總裁及首席執行官Victor Peng先生日前在北京舉行的賽靈思開發者大會上發布“打造靈活應變、萬物智能的世界”為題的主題演講” 并隆重推出面向人工智能和數據中心的兩款重磅產品-Versal 及 Alveo,展示了賽靈思人工智能加速及數據中心優先戰略的強大執行力和創新能力。
賽靈思總裁及首席執行官Victor Peng先生在XDF2018北京站演講中闡述賽靈思的使命-打造靈活應變、萬物智能的世界。?
Xilinx本次發布的業界首款ACAP芯片VERSAL,采用了臺積電的7納米FinFET工藝,其異構加速技術能夠為任何開發者,滿足任何創新應用。Victor Peng介紹,Versal 產品組合基于 臺積電(TSMC)的 7 nm FinFET 工藝技術,是第一個將軟件可編程性與特定領域硬件加速和靈活應變能力相結合的平臺,這對于跟上當今快速的創新步伐至關重要。該產品組合包括 6 個系列的器件,其獨特架構針對云端、網絡、無線通信乃至邊緣計算和端點等不同市場的眾多應用提供了可擴展性和 AI 推斷功能。 ?
該產品組合包括?Versal 基礎系列( Versal Prime),Versal 旗艦系列 (Versal Premium旗艦)系列和 HBM 系列,能針對要求最嚴格的應用提供業界領先的性能、連接性、帶寬和集成功能。此外,該產品組合還包括 AI 核心系列(AI Core),AI 邊緣系列 ( AI Edge) 和 AI 射頻系列(AI RF),采用突破性的 AI 引擎。AI 引擎是一種新型硬件模塊,專為解決各種應用低時延 AI 推斷的新需求而設計,同時支持高級 DSP 實現方案,滿足無線和雷達等應用要求。它與?Versal 自適應硬件引擎緊密結合,支持整體應用加速,也就是說軟硬件都能調節,從而確保最高性能和效率。
?
Versal組合中率先亮相的是?Versal Prime 系列,跨多個市場提供廣泛的適用性,同時推出的還有 Versal AI Core 系列,相對于業界領先的 GPU,AI 推斷性能預計能提升 8 倍。
?
VERSAL AI 核心系列
Versal AI Core系列的產品參數
Versal AI 核心系列提供該系列最高計算性能和最低時延,實現突破性的 AI 推斷吞吐量和性能。該系列針對云端、網絡和自動駕駛技術進行了優化,提供業界最廣泛的 AI 和工作負載加速功能。Versal AI 核心系列 有 5 款產品,提供 128 到 400 個 AI 引擎。該系列包括雙核 Arm Cortex-A72 應用處理器、雙核 Arm Cortex-R5 實時處理器、256KB 片上 ECC 存儲器、超過 1900 個專為高精度低時延浮點運算而優化的 DSP 引擎。此外,它還包括 190 多萬個系統邏輯單元以及超過 130Mb 的 UltraRAM、高達 34Mb 的塊 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 塊,任何引擎都能直接訪問,這也是 Versal AI 系列的獨特之處,而且都能支持定制存儲器架構。該系列還包括 PCIe? Gen4 8 信道和 16 信道以及 CCIX 主機接口、功耗優化型 32G SerDes、多達 4 個集成型 DDR4 存儲器控制器、多達 4 個多速率以太網 MAC、650 個高性能 I/O(用于 MIPI D-PHY)、NAND、存儲級內存接口和 LVDS、78 個多路復用 I/O(連接外部組件)和超過 40 個 HD I/O(3.3V 接口)。以上所有器件均通過業界一流的片上網絡 (NoC) 實現互聯,具有多達 28 個主/從端口,以低時延提供每秒多 Tb 帶寬,而且提供高功率效率和原生軟件的可編程性。完整的產品列表現已發布。
?
VERSAL PRIME 系列
?
Versal Prime 系列經過精心設計,適用于多個市場的廣泛應用,并針對各種工作負載的連接性和在線加速進行了優化。這款中端系列包括 9 款產品,每款產品都采用雙核 Arm Cortex-A72 應用處理器、雙核 Arm Cortex-R5 實時處理器、256KB 片上存儲器(帶 ECC)、超過 4000 個專為低時延高精度浮點運算優化的 DSP 引擎。此外,它還包括 200 多萬個系統邏輯單元,結合 200Mb 以上 UltraRAM、超過 90Mb 的塊 RAM 以及 30Mb 分布式 RAM,能支持定制存儲器架構。該系列還包括?PCIe Gen4 8信道和 16 信道以及 CCIX 主機接口、功耗優化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多達 6 個集成型 DDR4 存儲器控制器、多達 4 個多速率以太網 MAC、700 個高性能 I/O(支持 MIPI D-PHY)、NAND、存儲級內存接口和 LVDS、78 個多路復用 I/O(連接外部組件)和超過 40 個 HD I/O(3.3V 接口)。以上均通過業界一流的片上網絡 (NoC) 實現互聯,具有多達?28 個主/從端口,以低時延提供每秒多 Tb 帶寬,而且提供高功率效率和原生的軟件可編程性。完整的產品列表現已發布。
?
賽靈思目前正通過早期試用計劃與多家關鍵客戶合作。Versal Prime 系列和 Versal AI Core 系列將于 2019 年下半年上市。
在演講過程中,賽靈思總裁及首席執行官Victor Peng先生還為大家介紹全球最快的數據中心及AI加速器卡Alveo。據介紹,現場發布的Alveo U200 和 Alveo U250兩款產品采用了?Xilinx UltraScale+ FPGA芯片。
?
賽靈思軟件及IP產品執行副總裁Salil Raje先生為大家帶來AI加速的主題演講,激情描繪賽靈思靈活應變的新型器件將如何加速當今AI時代各種創新的整體應用,擁抱所有的開發者。
賽靈思產品及技術營銷高級總監Kirk Saban為大家帶來行業首款靈活應變的ACAP自適應計算加速平臺Versal,致力于為所有開發者、所有應用開啟快速創新新時代。
?
多位賽靈思的FPGA合作伙伴們,也在現場演講介紹了基于FPGA的云計算服務技術,以及基于賽靈思之前發布過的16納米的異構FPGA UltraScale SoC的加速卡等產品。
XDF大會合作伙伴合影。從左至右 阿里巴巴異構計算總監項午,阿里云FPGA研發總監 張振祥,浪潮集團總裁 李金,賽靈思CEO Vcitor Peng,華為FPGA加速云服務技術負責人張小華。
?
賽靈思的現場合作伙伴如浪潮、華為現場發布了最新的加速卡,華為和阿里云都推出了FaaS云平臺。他們認為,AI時代正在到來,開發者們對于FPGA as a Service(FaaS)的業務需求不斷擴大,FPGA加速卡市場成長非常看好。阿里云FPGA異構計算研發總監張振祥表示,FaaS的價值不僅在于提升了效率,相比CPU的物聯網時序數據庫運算提升了30倍,還為公司三年節省的TCO成本高達40%。
?
華為的FPGA加速云平臺深圳深鑒科技、睿視知覺、Alcon Computing、NGCODEC、CTACCEL等加速解決方案,開發者使用華為FPGA云平臺,可以實現全棧加速解決方案。
XDF2018北京站展位現場演示的實時機器學習推斷演示-人臉識別、車輛識別等。
精彩問答
?
會后賽靈思高管還接受了媒體記者的采訪。Victor Peng先生也回答了電子發燒友等媒體的現場提問。
現在越來越多賽靈思的客戶,如華為、阿里也都在打造屬于自己的云端、數據中心和AI芯片,這對于賽思靈的產品策略有何影響?Victor表示,“產業還處于AI革命的早期,大家都在尋找不同的解決方案,這也為大家帶來了很多的機遇。可能有一些領域是適用于固定功能的芯片(ASIC),但是我相信絕大多數還是需要使用像我們這樣靈活應用的平臺作為解決方案。因此,我并不認為ACAP或者Alveo產品會取代所有的GPU,但是肯定會越來越多采用靈活應變的平臺。”
?
對于為何目前好幾家廠商如華為、賽靈思等廠商的新AI芯片,都不約而同地選用采用7納米的工藝的原因,賽靈思軟件產品副總裁Ramine也回答了電子發燒友的記者的提問?!安捎?納米是因為現在它是制程上是最先進的技術手段,所以大家都會云想用最快的,而且性能最快高,功耗最小的,當然,現在看成本也是最高的。另外想指出,傳統專用芯片來比,從設計到真正量產通常不少于兩年的周期,所以現在大家看到專用芯片設計都是兩年以前的時間節點。很多ASIC芯片的功能和架構設計都是針對兩年以前的網絡來進行設計。FPGA架構就完全不一樣了,它從設計到使用完全符合最新的技術應用的要求,也就是現在不管是移動網絡還是什么樣的網絡,幾年以前這個東西并不是特別流行,但是現在會比較多。如果用CPU、GPU,真正用它的性能,會發現和它表述有差別,因為當時設計規劃不適應現在的需求。但是FPGA完全沒有這個問題,在現在深度學習和機器學習非常流行的年代,可以適應現在最好的狀態,比較老的FPGA都可以支持最新的機器學習和深度學習的應用,但是在這一點上ACAP是有比較長的延遲,因為是適用于兩年以前的網絡?!?br />
?
在人工智能時代,嵌入式FPGA或者是SoC中集中FPGA的IP的做法(eFPGA),是否也能更好地在靈活性上滿足AI的需求??賽靈思軟件產品副總裁Ramine也回應了電子發燒友記者的這個提問。
?
賽靈思軟件產品副總裁Ramine首先指出,賽靈思的ACAP不是一個嵌入式的專用芯片,它是一個功能完善的完整芯片,芯片內部的連接和通信非常容易,在數據傳輸方面效果就非常好。除此外,它內部還有各種各樣不同的處理器,每個處理單元都是為了不同的工作負載來專門進行優化的,比如CPU,是專門做一些適合于CPU做的復雜算法的運算。FPGA用于流媒體計算,還有新處理計算的引擎,比如AI、AI引擎是矢量處理器的陣列,主要處理現行計算的工作負載。幾乎每個處理計算單元都是為了不同的工作負載而重新優化過,然后進行組合。也就是每個計算單元都是功能強大的獨立完整的節點。這樣一個完整的芯片,在不同的工作負載下都可以發揮非常好的效果。
?
其次,eFPGA僅僅是一個FPGA IP而已,也就是說它在標準連接上,比如你想連接不同的應用芯片的話,它沒有一個標準連接的模式。另外,它在內存和IO可編程性上也時比較差。eFPGA在過去并不是特別成功,因為eFPGA已經存在了二十多年時間,但是到目前為止也沒有看到哪個公司真的是做EFPGA做的比較成功,所以現在市場不是很認可。
另外,跟大家分享一條好消息!2018年12月4日,由電子發燒友網舉辦的“第5屆中國IoT(物聯網)大會”將于深圳舉辦,如欲了解詳情可點擊標題超鏈進入大會專題通道。
評論
查看更多