人工智能大模型時代,得算力者,得天下。
但在算力的源點——數據中心,并不是算力最強者才會贏到最后。
除了狂暴的計算能力之外,數據中心的供電、散熱、運維等等成本開支,加在一起反而會成為數據中心開銷的大頭。說白了,數據中心更看重的,是「性能功耗比」。也就是說:消耗一度電,能提供多少算力。
過去十幾年,基于x86架構的處理器在數據中心是絕對王者。今年2月,市場研究機構Counterpoint發布了全球云服務器的相關調研,91%的市場份額仍由x86占據。
然而在近幾年,服務器市場的格局已經發生了巨大的轉變,越來越多新的處理器架構開始涌入數據中心市場,并在不斷挑戰傳統架構的領導地位。
特別是說到低功耗,人們自然會想到在移動互聯網時代風生水起的ARM架構。ARM的RISC架構有著天生的低功耗能力,智能手機和移動設備取得突破性成功后,自然也瞄準了數據中心市場這個更大的蛋糕。全球知名技術市場分析與咨詢國際公司Canalys CEO史蒂夫·布雷熱(Steve Brazier)甚至大膽預測:
“2026年之前,云服務器架構芯片的半壁江山將歸于ARM。”
隨著云服務工作負載的快速增長,數據中心基礎設施亟需突破「性能功耗比」的瓶頸,這也帶來了寶貴的機會。例如,2017年才創辦的芯片設計初創企業Ampere Computing(安晟培半導體,下文簡稱Ampere),就利用自研的云原生處理器架構在激烈的競爭中異軍突起。五月底,Ampere推出了最多集成192個內核的AmpereOne系列處理器,內核數量打破行業記錄。
我詳細梳理了這家初創公司的技術進階之路,就是為了回答一個問題:這家成立僅5年多的芯片公司,到底做對了什么?
我的答案很簡單:
把握正確的時機,用正確的技術,做正確的產品。
x86架構,數據中心不可撼動的王?
為了更好的理解Ampere異軍突起的原因,首先應該來看為何x86架構統治了數據中心這么久。
在芯片行業,一旦推出成功的服務器芯片架構,加之構建完善的生態,等同于拿到一張長期飯票,這里說的就是x86架構。
其中,最大的受益者非英特爾莫屬。在x86架構的數據中心的市場里,英特爾市場份額曾一度占90%以上。
早在1978年,英特爾就用x86架構打響名堂,通過高效指令執行、快速訪存、單核多線程能力等優勢,狙擊RISC架構處理器市場。隨之,從芯片、操作系統、開發工具、數據庫到各類服務器端的應用軟件,x86架構一一建立起完善的體系和生態。
舉個例子,根據Linux基金會的數據,英特爾是Linux操作系統內核代碼的最大貢獻者,超過了紅帽、IBM等軟件和系統公司。這是因為Linux作為數據中心的重要基石,承擔了軟硬件結合的關鍵功能。因此,英特爾對Linux內核的貢獻,其實是幫助x86架構更好的配合Linux,反過來也會讓更多開發者選擇x86作為底層架構做開發。
因此,就算傳統x86架構并非為云端業務設計,但是依靠其客戶端在超過十幾、二十年間占據市場的積累,高度的用戶粘性也讓x86搶先預定了大量熟悉的數據中心端客戶。
根據Counterpoint在今年2月底發布的全球云服務器數據,x86占據著91%的市場份額,其中AMD的市占率提升至20%,英特爾跌至71%。從數據來看,相比其他處理器架構,x86似乎仍然有著近乎統治級的優勢。
但事情已經悄悄起了變化。
機遇來臨:算力不再是唯一標準
當算力需求不大時,基于x86的CPU已經能夠很好的滿足應用的需求。外加成熟的生態和基礎設施,x86的帝國似乎無可撼動。
從技術角度來看,CPU屬于通用芯片,它最大的優點就是能做很多很多事情,但缺點就是雖然什么都能干、但什么都做不到最好。比如在人工智能領域,CPU的處理性能就遠遠落后于GPU。此外很多人意識到,既然人工智能這么重要,為什么不直接為它單獨設計制造一種芯片、來專門為它服務呢?結果發現這么想的人還不止一個,于是幾乎在同一時間,世界上出現了很多AI芯片公司,就連谷歌和百度這些互聯網公司,也紛紛下場做AI芯片了。
這些看似自然而然的進化,背后其實有著很強的客觀規律。1987年,在日立半導體和索尼擔任高級職位的牧本次生提出,芯片的類型有規律地在“定制化”和“通用化”之間不斷交替,變化一次的周期大約為10年,這個發現也被稱作牧本周期。由于這個變化的過程特別像一個鐘擺,因此牧本周期也被業界稱作半導體行業之擺。
這個和中國古人說過的「分久必合,合久必分」其實有著異曲同工之妙。當通用CPU架構發展到一定階段,它必然為了通用性而承載了太多「冗余」的功能,而這些不必要的部分,會極大影響它的性能上限和功耗下限。
相比之下,如果針對某個應用領域做定制優化,就能拋掉那些不必要的負擔,輕裝上陣,出奇制勝。
人工智能芯片如此,云原生處理器也如此。
當前,數據中心發展演變出新的需求,算力固然是重要標準,但能源需求、土地制約、ESG法規要求、擴展性要求等也成為現代數據中心都需要考慮的重要因素。近幾年,綠色數據中心成為人們關注的重點。而背了太多通用性包袱的x86架構,就逐漸無法滿足云數據中心的發展需求了。
Ampere究竟“高”在哪里?
事實上,ARM幾乎壟斷智能手機芯片架構,卻在云服務器市場上難以復制奇跡,這主要在于X86成熟的產品和健全的生態。即便ARM早在2008年布局更廣闊的PC和筆記本電腦市場、數據中心,AMD、博通、高通、惠普等企業也做過基于ARM架構服務器芯片的嘗試,但均未能走遠。唯獨蘋果在ARM架構上取得的突破,給眾多芯片的新貴帶來了豐富的想象空間,尤其在近幾年突飛猛進的數據中心。
前英特爾總裁Renee James另開蹊徑,在2018年創立Ampere,推出業界第一個基于ARM指令集的云原生服務器微處理器架構,走出了不一樣的“云原生”道路。
云原生處理器至少需要集成三個「正確的技術」:高能效比、性能穩定、高可擴展。我們一個一個來看。
首先,云計算應用往往有著大量用戶和大量應用,這對單核可預測性能、功耗,以及內核密度都提出了更高的要求。因此,當過去很多廠商使用雙路服務器和超線程內核的處理器來提供足夠的算力時,Ampere可以在單路服務器和單線程內核的處理器上通過堆核的方式,持續提升更高的算力、更多的IO、更高的內存,同時降低了雙路平臺的復雜程度和能耗,實現更好的解決方案。
第二,云原生處理器需要保證穩定一致、可線性擴展的性能。比如,單線程內核無干擾(相對x86的超線程),恒定的最大主頻不降頻(相對x86的睿頻跳頻機制),從而保證性能的穩定、而不是動態跳變。此外,處理器性能的線性增長可以帶來更高的CPU利用率。通常來說,傳統架構中CPU使用率的安全水位線是50%、甚至30%,根源就是跑更多核時性能并不能明顯提升,到達安全水位時無法利用CPU剩下的內核。相比之下,針對云原生而優化的處理器架構可以進行線性擴展,使得CPU可以將安全水位提高到70%,甚至更高。
第三,云原生處理器需要具備橫向擴展能力。特別是在當前,云計算軟件走向以微服務為代表的橫向擴展架構,即從scale-up到scale-out。因此,CPU硬件架構也需要做相應的改變,從硬件層面更好的支撐橫向擴展,這也是云原生處理器相比于通用處理器最大的區別。
為此,Ampere做出了三個技術選擇:
選擇1:提供更多線性擴展的單線程內核,而不是利用超線程等技術彌補物理核數少,平行吞吐性能低的問題。
選擇2:提供高性能的通用計算內核,而不是利用額外的專用加速單元提升性能。
選擇3:利用最大化單機架性能來實現數據中心級別的可擴展性,而不是依賴單核或者單CPU的scale-up。
(Ampere云原生自研內核性能指標,來源:Ampere官網)
采用云原生的自研核來設計CPU,可以適配不斷擴展的云端工作負載,并可根據不同用戶的需求進行擴展、收縮以及遷移,能夠在不建設更多的數據中心和更多設備的情況下,最大限度地提供算力,并且也對安全性做出增強。
根據正確的技術路線,得到正確的產品就是水到渠成的事情:5月19日,Ampere官宣新一代AmpereOne系列處理器,由臺積電5nm 工藝制造,擁有192 個單線程內核,創下業界最多內核數量的紀錄,大大超過英特爾、 AMD 服務器的核心數。內核數量的提升,意味著AmpereOne 能為云工作負載提供更高的性能、更高的可擴展性以及更高的密度,為大型數據中心的規模化發展打下基礎。
此外,AmpereOne還集成了大型云優化私有緩存,比上一代增加了8通道的 DDR5 內存和128 通道的 PCIe Gen5接口,滿足AI、超算等高增長的云應用需求,幫助實現單機架性能最大化。在AI大模型浪潮之下,AmpereOne還針對AI推理做了架構優化,較其他 CPU 有 2 倍以上的性能優勢,以適應生成式 AI 算力爆發的需求。
(Ampere處理器性能指標總覽,來源:Ampere官網)
通過云原生處理器,AmpereOne進行 AI 推理,不僅能打破效率瓶頸,實現性能最大化,也可以解決云服務提供商的行業痛點,大大壓縮AI 推理所產生的高能耗。
根據Ampere給出的數據,Ampere 云原生處理器可助力性能提升3倍,同時能耗降低2.8倍。其獨特的云內核與架構特性能夠提供無可比擬的云性能、可擴展性以及效率。與x86服務器CPU相比,Ampere Altra系列可用50%的能耗,提供200%的性能。
(AmpereOne的AI性能提升,來源:Ampere官網)
隨著各地對數據中心的擴張以及背后飆升的電力需求,Ampere充分發揮了ARM架構的低功耗優勢,可以解決數據中心可持續運營的當務之急。不僅如此,ARM的生態也在不斷提升,更好的適配越來越多的服務和應用。Ampere首席產品官Jeff Wittich強調,除性能、功耗領先x86芯片外,Ampere的產品還可在云環境下運行所有應用,涵蓋Web服務、數據庫和視頻編碼,AI推理等場景。
對于眾多云服務器客戶來講,不容忽視的一點是Ampere的“高性價比”。根據國外測評專業網站Phoronix的報道,Ampere的另一個主力產品Altra Max只需5800美元,而AMD的EPYC 7763 需要7890美元,英特爾的Xeon Platinum 8380處理器則達到8099美元。
基于性能、能效、可擴展性、高性價比的優勢,Ampere幫助數據中心以更少的資源滿足更多的算力需求,借助「綠色數據中心」這個新的趨勢起飛,成立5年左右就迅速收獲市場認可。
目前,全球已經有七家超大規模的數據中心使用Ampere產品,騰訊云、阿里云、京東云、微軟Azure、百度云等云計算廠商也推出了Ampere芯片的云端實例。
Ampere走強不設限
云服務器市場有多大,Ampere云端業務的潛力就有多強。
面臨巨大的算力需求、嚴格的環保要求、高昂的運營成本壓力,數據中心越來越需要能夠幫助降本增效、提供更高能效和性能的服務器,這給Ampere帶來廣闊的空間。
“英特爾和AMD正在密切關注著Ampere,”數據中心市場情報先驅Liftr Insights的首席執行官泰博·沙特(Tab Schadt)表示,“他們清楚,Ampere正在一步步占領他們在整個市場的份額。”
2021年,Ampere首次躋身世界前六的云供應商,隨后在云市場上的勢頭一發不可收拾,在2022年11月甚至達到了同比443%的增長。
除了有節奏地上線刷爆業界內核數量的云原生處理器,Ampere也馬不停蹄地壯大自己的生態,積極與GCC、LLVM等行業組織、操作系統內核、編譯器、開源固件進行合作,確保所有產品的適配性和優質體驗。隨著市場和客戶需求不斷增加,Ampere也在堅定做自研核,通過更好的性能、功耗以及可擴展性,幫助Ampere的產品在業內持續領先。
從數據中心市場情報先驅Liftr Insights的調研發現,在公共云領域,Ampere已經從三年前的默默無聞發展到當今將近2%的市占率。其中,微軟Azure貢獻最大,超過了69%,而阿里巴巴、谷歌、甲骨文、騰訊等客戶也在不斷擴大各自的Ampere云端實例。
數據中心的可持續源于內核。對于堅定做云原生自研核的Ampere而言,它在云端業務“開路”的好戲才剛剛開始。
審核編輯:劉清
評論
查看更多