精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

芯來科技與華東師范大學(xué)SOLE實驗室合作推動LLVM/CLANG編譯器優(yōu)化

芯來科技 ? 來源:芯來科技 ? 2024-06-12 09:09 ? 次閱讀

隨著RISC-V這一革命性的開源指令集架構(gòu)在全球范圍內(nèi)的迅速普及,它為半導(dǎo)體行業(yè)帶來了前所未有的機遇與挑戰(zhàn)。在此大背景下,芯來科技和華東師范大學(xué)SOLE實驗室攜手合作,致力于在RISC-V處理器上進行深入的LLVM/CLANG編譯器優(yōu)化以及程序性能優(yōu)化和調(diào)優(yōu)。

我們不僅優(yōu)化了LLVM編譯器的多個關(guān)鍵環(huán)節(jié),提升了代碼生成效率和執(zhí)行性能,還針對視頻編解碼、性能測試等應(yīng)用場景進行了深入分析和優(yōu)化,提高了相關(guān)軟件的執(zhí)行效率。

此次合作在RISC-V處理器上實現(xiàn)了一定程度的性能提升,同時,我們也希望能夠為RISC-V性能優(yōu)化領(lǐng)域的同仁們提供一些有益的借鑒和參考。我們相信,通過持續(xù)的技術(shù)創(chuàng)新和開放的合作精神,我們可以共同推動這一領(lǐng)域的發(fā)展和進步。下面是我們本次合作的主要成果。

一、MCPPass冗余指令的刪除優(yōu)化

在LLVM-17.x版本當(dāng)中,生成的RISC-V端代碼會出現(xiàn)冗余數(shù)據(jù)搬運指令無法刪除的問題,詳情如下圖所示。在兩個紅框顯示的vmv指令當(dāng)中,v0以及v8寄存器的值都沒有得到改變,但LLVM最終生成的RISC-V代碼依然會對這兩個值進行重復(fù)搬運。

0e843102-2858-11ef-91d2-92fbcf53809c.png

冗余vmv指令無法在LLVM/Clang中消除的示例

經(jīng)過核查,出現(xiàn)該問題的根因是LLVM的Machine Copy Propagation Pass對寄存器使用的Def-Use記錄不當(dāng)所導(dǎo)致。經(jīng)過對該問題進行修復(fù)后,該工作已經(jīng)提交到了LLVM的上游倉庫。該優(yōu)化亦應(yīng)用到了LLVM多個后端的代碼生成當(dāng)中,如RISC-V、X86以及AMDGPU的后端代碼生成當(dāng)中。

二、RVV的低精度數(shù)據(jù)向量化取余以及右移代碼生成優(yōu)化

C語言會采用Promotion Rule來保證混合精度或者是低精度數(shù)據(jù)運算結(jié)果的準(zhǔn)確性,當(dāng)遇到低精度數(shù)據(jù)如int8或者int16類型的數(shù)據(jù)進行逐元素(Element-Wise)取余或者是算術(shù)右移操作時,會先將相應(yīng)的數(shù)據(jù)提升至32位,再將結(jié)果進行截斷至原來的精度以保證運算結(jié)果的正確性。然而,取決于RVV 1.0指令集動態(tài)調(diào)整元素大小的特性,該過程需要一系列的vsetvli類指令進行操作。

考慮到相關(guān)的計算溢出結(jié)果以及指令的行為在RVV 1.0指令集中已經(jīng)得到明確定義,在LLVM編譯器生成相關(guān)代碼時可以進行下圖所示的優(yōu)化:

0e9fdf74-2858-11ef-91d2-92fbcf53809c.png

Element-wise vrem.vv優(yōu)化前

0eb0ea3a-2858-11ef-91d2-92fbcf53809c.png

Element-wise vrem.vv優(yōu)化后

0ec36a7a-2858-11ef-91d2-92fbcf53809c.png

Element-wise vsra.vv優(yōu)化前

0ede5da8-2858-11ef-91d2-92fbcf53809c.png

Element-wise vsra.vv優(yōu)化后 這些優(yōu)化不僅可以從指令的語義上保證計算結(jié)果的正確性,而且能有效地避免頻繁復(fù)雜的數(shù)據(jù)精度提升與下降操作,這些優(yōu)化工作亦被提交到了LLVM的上游倉庫當(dāng)中。

三、FFMPEGX264編解碼熱點采集分析

RISC-V Vector 1.0向量化指令集可以被用于視頻編解碼應(yīng)用的加速處理當(dāng)中,而FFMPEG作為最常見的音視頻處理軟件之一,在其關(guān)鍵核心且可向量化函數(shù)當(dāng)中,大部分亦都利用RVV 1.0匯編或者Intrinsic進行了重寫。盡管如此,如何針對其常用的x264編解碼功能進行編譯優(yōu)化機會的探索,依然是提高其執(zhí)行效率的一個重要手段。

我們采集對比了GCC 14.1與LLVM/Clang 17.2編譯出來的FFMPEG,在進行x264視頻編解碼時的熱點函數(shù),詳情下圖所示。根據(jù)結(jié)果可以看到,熱點函數(shù)都聚集在了libx264的x264_piexel_sad類函數(shù)之上。

0ef63bb2-2858-11ef-91d2-92fbcf53809c.png

FFMPEG X264編碼熱點分析(GCC)

0f1eda68-2858-11ef-91d2-92fbcf53809c.png

FFMPEG X264編碼熱點分析(LLVM/Clang)

0f390b7c-2858-11ef-91d2-92fbcf53809c.png

x264_pixel_sad類函數(shù)聲明

而這類x264_piexel_sad函數(shù)本質(zhì)上就是一系列的abs函數(shù)的處理,這類函數(shù)的定義可以如上圖所示。

以16x16的迭代大小為例子,下面的圖分別對比了LLVM/Clang以及GCC在該函數(shù)上生成代碼的細(xì)致區(qū)別(開啟-O3)。

0f59d7f8-2858-11ef-91d2-92fbcf53809c.png

x264_piexel_sad_16x16函數(shù) GCC生成代碼

0f735b56-2858-11ef-91d2-92fbcf53809c.png

x264_piexel_sad_16x16函數(shù) LLVM/Clang生成代碼

可以看到,在默認(rèn)O3的選項下,GCC生成的代碼對于這類核心函數(shù)的處理效率遠不如LLVM/Clang。這是因為GCC默認(rèn)采用LMUL=1(向量化分組大小為1)的大小進行代碼生成,即其生成的RVV代碼采用的LMUL大小不能高于1。在探索到這些根因后,可以采用GCC最新14.1版本中所提供的-mrvv-max-lmul=dynamic選項對這類生成的代碼進行改進,采用該選項優(yōu)化后的代碼如下圖所示:

0f92dbca-2858-11ef-91d2-92fbcf53809c.png

LMUL設(shè)置為dyanamic時GCC生成的代碼

此時,GCC在此處生成的代碼執(zhí)行效率已經(jīng)能夠和LLVM/Clang相匹配。因此,我們在采用GCC編譯的FFMPEG進行x264視頻編解碼時,為了更高的核心代碼執(zhí)行效率,建議將GCC動態(tài)調(diào)整LMUL大小的編譯選項進行開啟。

四、CoreMark的JumpThreading優(yōu)化

Coremark是評估CPU性能常見的一個測試程序,但是采用LLVM/Clang編譯器編譯優(yōu)化coremark程序跑分效果遠遠比不上GCC,因此我們分析了Coremark程序的熱點函數(shù),發(fā)現(xiàn)可以通過Jump Threading技術(shù)來進行優(yōu)化,Jump Threading是一種專門用于控制流程圖(CFG)優(yōu)化的一種編譯優(yōu)化技術(shù),它會在執(zhí)行分支前遇到確定變量的值時,直接執(zhí)行確認(rèn)值在分支以后的路徑,即采用無條件的跳轉(zhuǎn)替代條件跳轉(zhuǎn),詳情如下圖所示:

0fab5df8-2858-11ef-91d2-92fbcf53809c.png

優(yōu)化前的CFG

0fc2d398-2858-11ef-91d2-92fbcf53809c.png

優(yōu)化后的CFG

該優(yōu)化會對CFG路徑中變量的值進行掃描遍歷,并尋找到可以利用無條件跳轉(zhuǎn)替換條件判斷的路徑,并進行基本塊的克隆與路徑的替換。考慮到該掃描過程較為耗時,LLVM中默認(rèn)的Jump Threading優(yōu)化采取較為輕量級的掃描方式。通過在芯來編譯工具鏈的LLVM/Clang中引入一系列更為激烈的Jump Threading掃描優(yōu)化手段后,將采用Clang編譯的CoreMark并運行在芯來N300模擬器上的跑分提升約18%。

0feb7ef6-2858-11ef-91d2-92fbcf53809c.png

LLVM/Clang調(diào)優(yōu)前CoreMark跑分

1000579a-2858-11ef-91d2-92fbcf53809c.png

引入額外Jump Threading優(yōu)化后的CoreMark跑分

五、SPECCPU2006的編譯選項調(diào)優(yōu)

SPEC CPU 2006 INT是業(yè)界常用的CPU性能基準(zhǔn)測試套件,為了提高SPEC CPU 2006 INT的測試跑分,常常需要找到更適合的編譯選項來對編譯器進行調(diào)優(yōu),以獲得更好的SPEC分?jǐn)?shù)。然而,考慮到目前大部分的最佳跑分配置都是利用業(yè)界專用編譯器,如IntelICC編譯器以及AMD的AOCC編譯器等進行跑分。對于RISC-V指令集架構(gòu)平臺,這類專用的編譯器并不能夠適用。同時,假如采用Ref測試集來進行編譯選項的調(diào)優(yōu),則需要消耗大量的測試時間。

為了加速調(diào)優(yōu),我們采用了一種更為靈活且快捷的基于Qemu仿真器的動態(tài)指令計數(shù)對比的編譯選項調(diào)優(yōu)方法。下圖展示了采用GCC-13對SPEC CPU2006 INT的TEST測試集進行選項調(diào)優(yōu)的結(jié)果。

10168d26-2858-11ef-91d2-92fbcf53809c.png

SPEC CPU 2006 INT動態(tài)指令數(shù)目調(diào)優(yōu)結(jié)果

經(jīng)過精心調(diào)優(yōu)的編譯選項在SPEC CPU2006 INT的多項測試程序中顯著降低了動態(tài)指令的數(shù)量。進一步地,我們在FPGA開發(fā)板上進行了實際的性能對比測試。結(jié)果表明,這種基于動態(tài)指令計數(shù)的調(diào)優(yōu)方法不僅有效,而且在資源受限的開發(fā)板或仿真CPU主頻受限的FPGA環(huán)境中,為編譯選項的優(yōu)化提供了一種切實可行的策略。這一發(fā)現(xiàn)為在類似條件下的性能提升開辟了新的探索路徑。

此次合作是雙方在技術(shù)研究和應(yīng)用開發(fā)領(lǐng)域共同努力的成果,它體現(xiàn)了我們團隊在探索和實踐過程中的專注與努力。同時,我們對于能夠參與到產(chǎn)學(xué)研合作這一推動技術(shù)革新的重要力量中來而深感榮幸。相信通過這樣的合作模式,我們能夠與業(yè)界同仁共同學(xué)習(xí)、相互啟發(fā),為整個技術(shù)社區(qū)的發(fā)展貢獻綿薄之力。

審核編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4672

    瀏覽量

    67781
  • 編譯器
    +關(guān)注

    關(guān)注

    1

    文章

    1602

    瀏覽量

    48896
  • 視頻編解碼
    +關(guān)注

    關(guān)注

    2

    文章

    54

    瀏覽量

    11702
  • 芯來科技
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    2909

原文標(biāo)題:芯來科技與華東師范大學(xué)SOLE實驗室合作推動RISC-V性能優(yōu)化

文章出處:【微信號:nucleisys,微信公眾號:芯來科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TüV萊茵授予聯(lián)想合作實驗室資質(zhì)

    聯(lián)想(北京)有限公司近日迎來重要里程碑,其聲學(xué)實驗室與安規(guī)實驗室成功獲得德國萊茵TüV大中華區(qū)頒發(fā)的合作實驗室資質(zhì)證書。這一殊榮不僅標(biāo)志著聯(lián)想在音視頻產(chǎn)品檢測及安全規(guī)范領(lǐng)域的專業(yè)能力已
    的頭像 發(fā)表于 09-20 18:23 ?738次閱讀

    龍芯中科與南京師范大學(xué)達成產(chǎn)教合作

    近日,龍芯中科副總裁杜安利一行前往南京師范大學(xué)電氣與自動化工程學(xué)院(以下簡稱“南師大電自學(xué)院”),雙方就科研合作實驗室共建、3D打印裝備、人才培養(yǎng)、課程思政等展開深入交流合作。南師大
    的頭像 發(fā)表于 07-17 14:51 ?477次閱讀

    華東師范大學(xué)的老師 上課已經(jīng)用上了大模型

    數(shù)據(jù)具有非獨占性、非排他性和非稀缺性。海量數(shù)據(jù)的產(chǎn)生和數(shù)據(jù)處理技術(shù)的飛速進步,驅(qū)動了人工智能等新興技術(shù)的崛起。 科學(xué)研究作為認(rèn)識世界的重要手段,其范式也受到數(shù)據(jù)和技術(shù)發(fā)展的影響。原有很多科學(xué)理論是建立在長期觀察、抽象歸納的基礎(chǔ)上。但在大數(shù)據(jù)時代,研究者往往先有海量的數(shù)據(jù),再通過機器學(xué)習(xí)等技術(shù)從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和洞見,用數(shù)據(jù)驅(qū)動科學(xué)發(fā)現(xiàn)。
    的頭像 發(fā)表于 07-01 15:18 ?111次閱讀
    <b class='flag-5'>華東師范大學(xué)</b>的老師 上課已經(jīng)用上了大模型

    極海半導(dǎo)體-武漢大學(xué)MCU聯(lián)合實驗室揭牌

    極海半導(dǎo)體-武漢大學(xué) MCU聯(lián)合實驗室揭牌儀式在武漢大學(xué)信息學(xué)部教學(xué)實驗大樓隆重舉行。此次儀式標(biāo)志著極海大學(xué)計劃正式落子武漢,雙方在微控制
    的頭像 發(fā)表于 06-28 11:36 ?653次閱讀

    SEGGER編譯器優(yōu)化和安全技術(shù)介紹 支持最新C和C++語言

    SEGGER編譯器是專門為ARM和RISC-V微控制設(shè)計的優(yōu)化C/C++編譯器。它建立在強大的Clang前端上,支持最新的C和C++語言功
    的頭像 發(fā)表于 06-04 15:31 ?1172次閱讀
    SEGGER<b class='flag-5'>編譯器</b><b class='flag-5'>優(yōu)化</b>和安全技術(shù)介紹 支持最新C和C++語言

    與交通運輸信創(chuàng)實驗室完成合作簽約,助力產(chǎn)業(yè)發(fā)展再提速

    “5月20日,中國交通運輸協(xié)會交通運輸信創(chuàng)實驗室揭牌暨啟動儀式在北京國家信創(chuàng)園成功舉辦,兆首批與交通運輸信創(chuàng)實驗室完成合作簽約。
    的頭像 發(fā)表于 05-22 16:29 ?446次閱讀

    西井科技和香港理工大學(xué)簽署合作協(xié)議,將共建聯(lián)合創(chuàng)新實驗室

    西井科技和香港理工大學(xué)簽署了人工智能和自動駕駛方面的深度產(chǎn)學(xué)研合作協(xié)議,將共建聯(lián)合創(chuàng)新實驗室,雙方共同探索該領(lǐng)域的前沿技術(shù)和應(yīng)用實踐。
    的頭像 發(fā)表于 04-29 09:42 ?389次閱讀
    西井科技和香港理工<b class='flag-5'>大學(xué)</b>簽署<b class='flag-5'>合作</b>協(xié)議,將共建聯(lián)合創(chuàng)新<b class='flag-5'>實驗室</b>

    采用OpenACC框架的FVCOM模型實現(xiàn)超百倍計算加速

    華東師范大學(xué)河口海岸學(xué)國家重點實驗室葛建忠教授團隊作為國際先進海洋數(shù)值模型 FVCOM 開發(fā)團隊核心成員
    的頭像 發(fā)表于 04-26 09:44 ?303次閱讀
    采用OpenACC框架的FVCOM模型實現(xiàn)超百倍計算加速

    科大訊飛與華中師范大學(xué)合作 大模型賦能教育

    科大訊飛與華中師范大學(xué)合作 大模型賦能教育 日前 華中師范大學(xué)與科大訊飛股份有限公司簽署戰(zhàn)略合作協(xié)議;雙方將圍繞大模型賦能教育教學(xué)、科研創(chuàng)新、人才培養(yǎng)、校園服務(wù)等方面展開
    的頭像 發(fā)表于 04-15 15:12 ?691次閱讀

    浙江大學(xué)與燧原科技共建“云邊智能聯(lián)合實驗室

    浙江大學(xué)控制科學(xué)與工程學(xué)院與上海燧原科技股份有限公司共同打造的“云邊智能聯(lián)合實驗室”近日在浙江大學(xué)玉泉校區(qū)舉行了隆重的揭牌儀式。這一創(chuàng)新性的合作旨在深度整合雙方資源,共同
    的頭像 發(fā)表于 03-28 09:47 ?388次閱讀

    華東師范大學(xué)教授:生活中的傳感

    大家·科技前沿 李波 華東師范大學(xué)物理與電子科學(xué)學(xué)院教授,博士生導(dǎo)師 當(dāng)我們逛街購物時,很多商店的大門都會自動打開,迎接顧客的到來;盥洗室里的水龍頭會在你需要的時候自動出水,從而帶來更加衛(wèi)生的環(huán)境
    的頭像 發(fā)表于 02-20 08:41 ?239次閱讀
    <b class='flag-5'>華東師范大學(xué)</b>教授:生活中的傳感<b class='flag-5'>器</b>

    ADuCM355硬件參考手冊——Keli編譯

    在 Arm Compiler 5 和 Arm Compiler for Embedded(以前稱為 Arm Compiler 6)之間,底層技術(shù)發(fā)生了重大變化,從專有編譯器 armcc 轉(zhuǎn)變?yōu)榛陂_源 LLVM/Clang
    的頭像 發(fā)表于 01-12 09:35 ?1074次閱讀
    ADuCM355硬件參考手冊——Keli<b class='flag-5'>編譯</b>版

    編譯器優(yōu)化選項

    一個程序首先要保證正確性,在保證正確性的基礎(chǔ)上,性能也是一個重要的考量。要編寫高性能的程序,第一,必須選擇合適的算法和數(shù)據(jù)結(jié)構(gòu);第二,應(yīng)該編寫編譯器能夠有效優(yōu)化以轉(zhuǎn)換成高效可執(zhí)行代碼的源代碼,要做到
    的頭像 發(fā)表于 11-24 15:37 ?754次閱讀
    <b class='flag-5'>編譯器</b>的<b class='flag-5'>優(yōu)化</b>選項

    玻色量子與北京師范大學(xué)在光量子計算領(lǐng)域持續(xù)突破

    2023年10月,北京玻色量子科技有限公司(以下簡稱“玻色量子”)聯(lián)合北京師范大學(xué)研究團隊在知名科技期刊Quantum發(fā)表了以《Combinatorial optimization solving
    的頭像 發(fā)表于 11-14 10:15 ?560次閱讀
    玻色量子與北京<b class='flag-5'>師范大學(xué)</b>在光量子計算領(lǐng)域持續(xù)突破

    新版編譯器的設(shè)計思路和優(yōu)化方法

    小程序編譯器在小程序開發(fā)、預(yù)覽、發(fā)布各個階段都需要使用,因此編譯器性能會直接影響到開發(fā)者開發(fā)效率,也會影響到開發(fā)者工具的使用體驗。 由于舊版的編譯器(基于 webpack4)在構(gòu)建大型項目時會很慢,內(nèi)存占用也高,一直被開發(fā)者吐槽
    發(fā)表于 10-13 11:21 ?258次閱讀
    新版<b class='flag-5'>編譯器</b>的設(shè)計思路和<b class='flag-5'>優(yōu)化</b>方法