精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內進行推斷

星星科技指導員 ? 來源:NVIDIA ? 作者:About Jay Rodge ? 2022-03-31 17:05 ? 次閱讀

NVIDIA 發布的TensorRT 8.0 ,通過新的優化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練,并通過支持稀疏性,這是引進安培 GPU 的顯著更高的性能。

TensorRT 是一個用于高性能深度學習推理的 SDK ,包括推理優化器和運行時,提供低延遲和高吞吐量。 TensorRT 用于醫療、汽車、制造、互聯網/電信服務、金融服務、能源等行業,下載量近 250 萬次。

有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。

此版本的亮點包括:

BERT 在 1.2 毫秒內進行推斷,并進行了新的 transformer 優化

使用量化感知訓練,以 INT8 精度實現與 FP32 相當的準確性

引入稀疏性支持對安培 GPU 的快速推理

關于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產品營銷經理,負責深入學習和推理產品,推動產品發布和產品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位,主攻計算機視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團的人工智能研究實習生,為寶馬最大的制造廠使用計算機視覺解決問題。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4940

    瀏覽量

    102818
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4702

    瀏覽量

    128709
收藏 人收藏

    評論

    相關推薦

    java小知識-納

    ()對比 System.currentTimeMillis()我們經常使用,可以參考對比一下 看方法意思,一個是納,一個是毫秒,二者有關系嗎? 先看看單位換算:一=1000毫秒 1
    的頭像 發表于 11-26 11:11 ?28次閱讀

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA
    的頭像 發表于 11-19 14:29 ?169次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優化

    AIC3254可以把mic采集到的音頻相位調整180度再延時1毫秒輸出給揚聲器?

    把mic采集到的音頻相位調整180度再延時1毫秒輸出給揚聲器,用AIC3254可以實現嗎?
    發表于 10-11 08:14

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的應用價值。”
    的頭像 發表于 08-23 15:48 ?391次閱讀

    請問ESP8266射頻校準期間會發射嗎?

    當ESP8266啟動時,它會運行射頻校準,該校準會在幾百毫秒內產生高電流峰值。 在這些電流尖峰期間,設備是否從其天線輻射任何東西?
    發表于 07-19 06:37

    如何設置rts frame的duration?

    我有一個系統一個ap和數個sta. STA每隔8毫秒發個udp包。可以通過wireshark抓包發現,每個sta都會先發一個rts包,其中duration為156毫秒。這樣其他sta和ap
    發表于 06-24 06:48

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的
    的頭像 發表于 04-28 10:36 ?489次閱讀

    利用NVIDIA Holoscan 1.0開發生產就緒型AI傳感器處理應用

    邊緣 AI 開發者正在構建用于安全關鍵型和受監管用例的 AI 應用和產品。借助 NVIDIA Holoscan 1.0,這些應用可在幾毫秒內整合實時洞察和加工處理。
    的頭像 發表于 04-25 09:58 ?430次閱讀

    NVIDIA生成式AI研究實現在1秒內生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉 3D 生成式 AI 模型)實現雙倍加速。
    的頭像 發表于 03-27 10:28 ?467次閱讀
    <b class='flag-5'>NVIDIA</b>生成式AI研究實現在1<b class='flag-5'>秒內</b>生成3D形狀

    關于STM32C8T6 DMA數據讀取的疑問求解決

    1.使用STM32F103C8T6的時候,使用的是串口通訊,波特率9600,在讀取數據的時候使用的是DMA數據讀取加串口空閑中斷的方式,使用MAX485接口的芯片,每隔200毫秒發送一次數據,
    發表于 03-27 07:50

    STM32H750VBT6無法使用flymcu.exe或flashloader通過串口1燒寫程序,怎么解決?

    串口COM55連接成功@115200bps,耗時922毫秒 芯片BootLoader版本號:3.1 芯片PID:00000450 芯片已設置讀保護 芯片有讀保護,請先擦除器件以清除讀保護 開始
    發表于 03-15 06:07

    i2c讀取每4毫秒偶爾會出現故障的原因?

    i2c讀取每4毫秒偶爾會出現故障。 概率約為 1, 500:1。 失敗的原因是 I2C_ERR_OTHER。 版本為版本:1.40.0_7.0.0
    發表于 01-19 07:12

    Torch TensorRT是一個優化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習推理軟件工具包。Torch Te
    的頭像 發表于 01-09 16:41 ?1558次閱讀
    Torch <b class='flag-5'>TensorRT</b>是一個優化PyTorch模型推理性能的工具

    5g測試的五個要點有哪些

    隨著5G提供的潛在速度的增加,設備將需要更快地響應以維持連接。確保設備和廣播系統1到2毫秒內作出響應,以保持這項新技術的順利運行將是非常必要的。
    發表于 12-14 11:42 ?756次閱讀

    AD7709設置完成后,通過查詢RDY引腳獲取轉換結果要幾百毫秒之后才能讀取到有效數據是為什么?

    _AD7709設置完成后,通過查詢RDY引腳獲取轉換結果。但是要幾百毫秒之后才能讀取到有效數據,前面讀取到的都是0!!這是什么原因造成的???
    發表于 12-08 06:15