NVIDIA 發布的TensorRT 8.0 ,通過新的優化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練,并通過支持稀疏性,這是引進安培 GPU 的顯著更高的性能。
TensorRT 是一個用于高性能深度學習推理的 SDK ,包括推理優化器和運行時,提供低延遲和高吞吐量。 TensorRT 用于醫療、汽車、制造、互聯網/電信服務、金融服務、能源等行業,下載量近 250 萬次。
有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。
此版本的亮點包括:
BERT 在 1.2 毫秒內進行推斷,并進行了新的 transformer 優化
使用量化感知訓練,以 INT8 精度實現與 FP32 相當的準確性
引入稀疏性支持對安培 GPU 的快速推理
關于作者
About Jay Rodge
Jay Rodge 是 NVIDIA 的產品營銷經理,負責深入學習和推理產品,推動產品發布和產品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位,主攻計算機視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團的人工智能研究實習生,為寶馬最大的制造廠使用計算機視覺解決問題。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4940瀏覽量
102818 -
gpu
+關注
關注
28文章
4702瀏覽量
128709
發布評論請先 登錄
相關推薦
評論