主流大模型推理框架盤點解析

從 ChatGPT 面世以來，引領了大模型時代的變革，除了大模型遍地開花以外，承載大模型進行推理的框架也是層出不窮，大有百家爭鳴的態勢。本文主要針對業界知名度較高的一些大模型推理框架進行相應的概述。

vLLM

GitHub: https://github.com/vllm-project/vllm

簡介

vLLM是一個開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實現了比HuggingFace Transformers高14-24倍的吞吐量。

PagedAttention 是 vLLM 的核心技術，它解決了LLM服務中內存的瓶頸問題。傳統的注意力算法在自回歸解碼過程中，需要將所有輸入Token的注意力鍵和值張量存儲在GPU內存中，以生成下一個Token。這些緩存的鍵和值張量通常被稱為KV緩存。

主要特性

通過PagedAttention對 KV Cache 的有效管理

傳入請求的continus batching，而不是static batching

支持張量并行推理

支持流式輸出

兼容 OpenAI 的接口服務

與 HuggingFace 模型無縫集成

與其他框架（HF、TGI）的性能對比

vLLM 的吞吐量比 HF 高 14 - 24 倍，比 TGI 高 2.2 - 2.5 倍。

image.png

存在的問題

同樣的模型、參數和prompt條件下，vLLM推理和Huggingface推理結果不一致。

業界案例

vLLM 已經被用于 Chatbot Arena 和 Vicuna 大模型的服務后端。

HuggingFace TGI

GitHub: https://github.com/huggingface/text-generation-inference

簡介

Text Generation Inference（TGI）是 HuggingFace 推出的一個項目，作為支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具，旨在支持大型語言模型的優化推理。

image.png

主要特性

支持張量并行推理

支持傳入請求 Continuous batching 以提高總吞吐量

使用 flash-attention 和 Paged Attention 在主流的模型架構上優化用于推理的 transformers 代碼。注意：并非所有模型都內置了對這些優化的支持。

使用bitsandbytes(LLM.int8())和GPT-Q進行量化

內置服務評估，可以監控服務器負載并深入了解其性能

輕松運行自己的模型或使用任何 HuggingFace 倉庫的模型

自定義提示生成：通過提供自定義提示來指導模型的輸出，輕松生成文本

使用 Open Telemetry，Prometheus 指標進行分布式跟蹤

支持的模型

BLOOM

FLAN-T5

Galactica

GPT-Neox

Llama

OPT

SantaCoder

Starcoder

Falcon 7B

Falcon 40B

MPT

Llama V2

Code Llama

適用場景

依賴 HuggingFace 模型，并且不需要為核心模型增加多個adapter的場景。

FasterTransformer

GitHub: https://github.com/NVIDIA/FasterTransformer

簡介

NVIDIA FasterTransformer (FT)?是一個用于實現基于Transformer的神經網絡推理的加速引擎。它包含Transformer塊的高度優化版本的實現，其中包含編碼器和解碼器部分。使用此模塊，您可以運行編碼器-解碼器架構模型（如：T5）、僅編碼器架構模型（如：BERT）和僅解碼器架構模型（如：GPT）的推理。

FT框架是用C++/CUDA編寫的，依賴于高度優化的 cuBLAS、cuBLASLt 和 cuSPARSELt 庫，這使您可以在 GPU 上進行快速的 Transformer 推理。

與 NVIDIA TensorRT 等其他編譯器相比，FT 的最大特點是它支持以分布式方式進行 Transformer 大模型推理。

下圖顯示了如何使用張量并行 (TP) 和流水線并行 (PP) 技術將基于Transformer架構的神經網絡拆分到多個 GPU 和節點上。

當每個張量被分成多個塊時，就會發生張量并行，并且張量的每個塊都可以放置在單獨的 GPU 上。在計算過程中，每個塊在不同的 GPU 上單獨并行處理；最后，可以通過組合來自多個 GPU 的結果來計算最終張量。

當模型被深度拆分，并將不同的完整層放置到不同的 GPU/節點上時，就會發生流水線并行。

image.png

在底層，節點間或節點內通信依賴于 MPI 、 NVIDIA NCCL、Gloo等。因此，使用FasterTransformer，您可以在多個 GPU 上以張量并行運行大型Transformer，以減少計算延遲。同時，TP 和 PP 可以結合在一起，在多 GPU 節點環境中運行具有數十億、數萬億個參數的大型 Transformer 模型。

除了使用 C ++ 作為后端部署，FasterTransformer 還集成了 TensorFlow（使用 TensorFlow op）、PyTorch （使用 Pytorch op）和 Triton 作為后端框架進行部署。當前，TensorFlow op 僅支持單 GPU，而 PyTorch op 和 Triton 后端都支持多 GPU 和多節點。

FasterTransformer 中的優化技術

與深度學習訓練的通用框架相比，FT 使您能夠獲得更快的推理流水線以及基于 Transformer 的神經網絡具有更低的延遲和更高的吞吐量。FT 對 GPT-3 和其他大型 Transformer 模型進行的一些優化技術包括：

層融合（Layer fusion）

這是預處理階段的一組技術，將多層神經網絡組合成一個單一的神經網絡，將使用一個單一的核（kernel）進行計算。這種技術減少了數據傳輸并增加了數學密度，從而加速了推理階段的計算。例如， multi-head attention 塊中的所有操作都可以合并到一個核（kernel）中。

自回歸模型的推理優化(激活緩存)

為了防止通過Transformer重新計算每個新 token 生成器的先前的key和value，FT 分配了一個緩沖區來在每一步存儲它們。

雖然需要一些額外的內存使用，但 FT 可以節省重新計算的成本。該過程如下圖所示，相同的緩存機制用于 NN 的多個部分。

image.png

內存優化

與 BERT 等傳統模型不同，大型 Transformer 模型具有多達數萬億個參數，占用數百 GB 存儲空間。即使我們以半精度存儲模型，GPT-3 175b 也需要 350 GB。因此有必要減少其他部分的內存使用。

例如，在 FasterTransformer 中，我們在不同的解碼器層重用了激活/輸出的內存緩沖（buffer）。由于 GPT-3 中的層數為 96，因此我們只需要 1/96 的內存量用于激活。

使用 MPI 和 NCCL 實現節點間/節點內通信并支持模型并行

FasterTransormer 同時提供張量并行和流水線并行。對于張量并行，FasterTransformer 遵循了 Megatron 的思想。對于自注意力塊和前饋網絡塊，FT 按行拆分第一個矩陣的權重，并按列拆分第二個矩陣的權重。通過優化，FT 可以將每個 Transformer 塊的歸約（reduction）操作減少到兩次。

對于流水線并行，FasterTransformer 將整批請求拆分為多個微批，隱藏了通信的空泡（bubble）。FasterTransformer 會針對不同情況自動調整微批量大小。

MatMul 核自動調整（GEMM 自動調整）

矩陣乘法是基于 Transformer 的神經網絡中最主要和繁重的操作。FT 使用來自 CuBLAS 和 CuTLASS 庫的功能來執行這些類型的操作。重要的是要知道 MatMul 操作可以在“硬件”級別使用不同的底層（low-level）算法以數十種不同的方式執行。

GemmBatchedEx?函數實現了 MatMul 操作，并以cublasGemmAlgo_t作為輸入參數。使用此參數，您可以選擇不同的底層算法進行操作。

FasterTransformer 庫使用此參數對所有底層算法進行實時基準測試，并為模型的參數和您的輸入數據（注意層的大小、注意頭的數量、隱藏層的大小）選擇最佳的一個。此外，FT 對網絡的某些部分使用硬件加速的底層函數，例如：__expf、__shfl_xor_sync。

低精度推理

FT 的核（kernels）支持使用 fp16 和 int8 等低精度輸入數據進行推理。由于較少的數據傳輸量和所需的內存，這兩種機制都會加速。同時，int8 和 fp16 計算可以在特殊硬件上執行，例如：Tensor Core（適用于從 Volta 開始的所有 GPU 架構）。

除此之外還有快速的 C++ BeamSearch 實現、當模型的權重部分分配到八個 GPU 之間時，針對 TensorParallelism 8 模式優化的 all-reduce。

支持的模型

目前，FT 支持了 Megatron-LM GPT-3、GPT-J、BERT、ViT、Swin Transformer、Longformer、T5 和 XLNet 等模型。您可以在 GitHub 上的 FasterTransformer庫中查看最新的支持矩陣。

與其他框架（PyTorch）的性能對比

FT 適用于計算能力 >= 7.0 的 GPU，例如: V100、A10、A100 等。

下圖展示了 GPT-J 6B 參數的模型推斷加速比較：

image.png

存在的問題

英偉達新推出了TensorRT-LLM，相對來說更加易用，后續FasterTransformer將不再為維護了。

DeepSpeed-MII

GitHub: https://github.com/microsoft/DeepSpeed-MII

簡介

DeepSpeed-MII 是 DeepSpeed 的一個新的開源 Python 庫，旨在使模型不僅低延遲和低成本推理，而且還易于訪問。

MII 提供了對數千種廣泛使用的深度學習模型的高度優化實現。

與原始PyTorch實現相比，MII 支持的模型可顯著降低延遲和成本。

為了實現低延遲/低成本推理，MII 利用 DeepSpeed-Inference 的一系列廣泛優化，例如：transformers 的深度融合、用于多 GPU 推理的自動張量切片、使用 ZeroQuant 進行動態量化等。

MII 只需幾行代碼即可通過 AML 在本地和 Azure 上低成本部署這些模型。

MII 工作流程

下圖顯示了 MII 如何使用 DS-Inference 自動優化 OSS 模型；然后，使用 GRPC 在本地部署，或使用 AML Inference 在 Microsoft Azure 上部署。

image.png

MII 的底層由 DeepSpeed-Inference 提供支持。根據模型類型、模型大小、批量大小和可用硬件資源，MII 自動應用 DeepSpeed-Inference 中的一組適當的系統優化，以最大限度地減少延遲并最大限度地提高吞吐量。它通過使用許多預先指定的模型注入策略之一來實現這一點，該策略允許 MII 和 DeepSpeed-Inference 識別底層 PyTorch 模型架構并用優化的實現替換它。在此過程中，MII 使 DeepSpeed-Inference 中一系列的優化自動可用于其支持的數千種流行模型。

支持的模型和任務

MII 目前支持超過 50,000 個模型，涵蓋文本生成、問答、文本分類等一系列任務。MII 加速的模型可通過 Hugging Face、FairSeq、EluetherAI 等多個開源模型存儲庫獲取。我們支持基于 Bert、Roberta 或 GPT 架構的稠密模型，參數范圍從幾億參數到數百億參數。除此之外，MII將繼續擴展該列表，支持即將推出的大規模千億級以上參數稠密和稀疏模型。

目前 MII 支持以下 HuggingFace Transformers 模型系列：

model family	size range	~model count
llama	7B - 65B	1,500
bloom	0.3B - 176B	480
stable-diffusion	1.1B	3,700
opt	0.1B - 66B	460
gpt_neox	1.3B - 20B	850
gptj	1.4B - 6B	420
gpt_neo	0.1B - 2.7B	700
gpt2	0.3B - 1.5B	11,900
xlm-roberta	0.1B - 0.3B	4,100
roberta	0.1B - 0.3B	8,700
distilbert	0.1B - 0.3B	4,700
bert	0.1B - 0.3B	23,600

與其他框架（PyTorch）的性能對比

MII 將 Big-Science Bloom 176B 模型的延遲降低了 5.7 倍，同時將成本降低了 40 倍以上。同樣,它將部署 Stable Diffusion 的延遲和成本降低了 1.9 倍。

image.png

FlexFlow Server

GitHub: https://github.com/flexflow/FlexFlow/tree/inference

簡介

FlexFlow Serve 是一個開源編譯器和分布式系統，用于低延遲、高性能 LLM 服務。

主要特征

投機（Speculative）推理

使 FlexFlow Serve 能夠加速 LLM 服務的一項關鍵技術是Speculative推理，它結合了各種集體boost-tuned的小型投機模型 (SSM) 來共同預測 LLM 的輸出；

預測被組織為token樹，每個節點代表一個候選 token 序列。使用一種新穎的基于樹的并行解碼機制，根據 LLM 的輸出并行驗證由 token 樹表示的所有候選 token 序列的正確性。

FlexFlow Serve 使用 LLM 作為 token 樹驗證器而不是增量解碼器，這大大減少了服務生成 LLM 的端到端推理延遲和計算要求，同時，可證明保持模型質量。

image.png

CPU Offloading

FlexFlow Serve 還提供基于Offloading的推理，用于在單個 GPU 上運行大型模型（例如：llama-7B）。

CPU Offloading是將張量保存在CPU內存中，并且在計算時僅將張量復制到GPU。

注意：

現在我們有選擇地offload最大的權重張量（線性、注意力中的權重張量）。此外，由于小模型占用的空間要少得多，如果不構成GPU內存瓶頸，offload會帶來更多的運行空間和計算成本，因此，我們只對大模型進行offload。可以通過啟用 -offload 和 -offload-reserve-space-size 標志來運行offloading。

支持量化

FlexFlow Serve 支持 int4 和 int8 量化。壓縮后的張量存儲在CPU端，一旦復制到 GPU，這些張量就會進行解壓縮并轉換回其原始精度。

支持的 LLMs 和 SSMs

FlexFlow Serve 當前支持以下模型架構的所有Hugingface模型：

LlamaForCausalLM / LLaMAForCausalLM (例如：LLaMA/LLaMA-2, Guanaco, Vicuna, Alpaca, ...)

OPTForCausalLM (OPT家族模型)

RWForCausalLM (Falcon家族模型)

GPTBigCodeForCausalLM (Starcoder家族模型)

以下是我們已經測試過并且可以使用 SSM 的模型列表：

模型	在 HuggingFace 中的模型 id	Boost-tuned SSMs
LLaMA-7B	decapoda-research/llama-7b-hf	LLaMA-68M , LLaMA-160M
LLaMA-13B	decapoda-research/llama-13b-hf	LLaMA-68M , LLaMA-160M
LLaMA-30B	decapoda-research/llama-30b-hf	LLaMA-68M , LLaMA-160M
LLaMA-65B	decapoda-research/llama-65b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-7B	meta-llama/Llama-2-7b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-13B	meta-llama/Llama-2-13b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-70B	meta-llama/Llama-2-70b-hf	LLaMA-68M , LLaMA-160M
OPT-6.7B	facebook/opt-6.7b	OPT-125M
OPT-13B	facebook/opt-13b	OPT-125M
OPT-30B	facebook/opt-30b	OPT-125M
OPT-66B	facebook/opt-66b	OPT-125M
Falcon-7B	tiiuae/falcon-7b	?
Falcon-40B	tiiuae/falcon-40b	?
StarCoder-15.5B	bigcode/starcoder	?

與其他框架（vLLM、TGI、FasterTransformer）的性能對比

FlexFlow Serve 在單節點多 GPU 推理方面比現有系統高 1.3-2.0 倍，在多節點多 GPU 推理方面比現有系統高 1.4-2.4 倍。

image.png

提示數據集

FlexFlow 提供了五個用于評估 FlexFlow Serve 的提示數據集：

Chatbot 指令提示：https://specinfer.s3.us-east-2.amazonaws.com/prompts/chatbot.json

ChatGPT 提示：https://specinfer.s3.us-east-2.amazonaws.com/prompts/chatgpt.json

WebQA：https://specinfer.s3.us-east-2.amazonaws.com/prompts/webqa.json

Alpaca：https://specinfer.s3.us-east-2.amazonaws.com/prompts/alpaca.json

PIQA：https://specinfer.s3.us-east-2.amazonaws.com/prompts/piqa.json

未來的規劃

FlexFlow Serve 正在積極開發中，主要專注于以下任務：

AMD 基準測試。目前正在積極致力于在 AMD GPU 上對 FlexFlow Serve 進行基準測試，并將其與 NVIDIA GPU 上的性能進行比較。

Chatbot prompt 模板和多輪對話

支持 FastAPI

與LangChain集成進行文檔問答

LMDeploy

GitHub: https://github.com/InternLM/lmdeploy

簡介

LMDeploy 由 MMDeploy 和 MMRazor 團隊聯合開發，是涵蓋了 LLM 任務的全套輕量化、部署和服務解決方案。這個強大的工具箱提供以下核心功能：

高效推理引擎 TurboMind：基于 FasterTransformer推理引擎，實現了高效推理引擎 TurboMind，支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。

交互推理方式：通過緩存多輪對話過程中 attention 的 k/v，記住對話歷史，從而避免重復處理歷史會話。

多 GPU 部署和量化：提供了全面的模型部署和量化（支持使用AWQ算法對模型權重進行 INT4 量化，支持 KV Cache INT8 量化）支持，已在不同規模上完成驗證。

persistent batch 推理：進一步優化模型執行效率。

支持張量并行推理（注意：量化部署時不支持進行張量并行）

image.png

支持的模型

LMDeploy 支持 TurboMind 和 Pytorch 兩種推理后端。

TurboMind

注意：
W4A16 推理需要 Ampere 及以上架構的 Nvidia GPU

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	Yes	Yes	No
Llama2	Yes	Yes	Yes	Yes	No
InternLM-7B	Yes	Yes	Yes	Yes	No
InternLM-20B	Yes	Yes	Yes	Yes	No
QWen-7B	Yes	Yes	Yes	No	No
Baichuan-7B	Yes	Yes	Yes	Yes	No
Baichuan2-7B	Yes	Yes	No	No	No
Code Llama	Yes	Yes	No	No	No

Pytorch

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	No	No	No
Llama2	Yes	Yes	No	No	No
InternLM-7B	Yes	Yes	No	No	No

與其他框架（HF、DeepSpeed、vLLM）的性能對比

場景一: 固定的輸入、輸出token數（1,2048），測試 output token throughput

場景二: 使用真實數據，測試 request throughput

測試配置：LLaMA-7B, NVIDIA A100(80G)

TurboMind 的 output token throughput 超過 2000 token/s, 整體比 DeepSpeed 提升約 5% - 15%，比 huggingface transformers 提升 2.3 倍在 request throughput 指標上，TurboMind 的效率比 vLLM 高 30%。

image.png

結語

總而言之，大模型推理框架的核心目標都是為了降低延遲；同時，盡可能地提升吞吐量；從上面的框架中可以看到，每個框架各有優缺點，但是目前來看，還沒有一個LLM推理框架有一統天下的態勢，大家都在加速迭代。

編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
gpu(126255) gpu(126255)
服務器(82172) 服務器(82172)
內存(72586) 內存(72586)
大模型(810) 大模型(810)

LED小芯片封裝技術難點解析

本文從關于固晶的挑戰、如何選用鍵合線材、瓷嘴與焊線參數等幾個方面向大家闡述在微小化的趨勢下關于LED小芯片封裝技術難點解析。

2016-03-17 14:29:33

3663

如何使用FasterTransformer進行單機及分布式模型推理

最近幾個月，隨著ChatGPT的現象級表現，大模型如雨后春筍般涌現。而模型推理是抽象的算法模型觸達具體的實際業務的最后一公里。但是在這個環節中，仍然還有很多已經是大家共識的痛點和訴求，比如：任何

2023-05-18 14:35:17

2000

8910芯片USB描述符的知識點解析，錯過后悔

8910芯片USB描述符的知識點解析，錯過后悔

2022-02-22 08:22:11

主流web前端技術框架

幫助開發重量級的javascript應用的框架，其文件本身很小，壓縮后只有5.3KB，主要提供了models(模型)、collections(集合)、views(視圖)三種結構，其中模型用于綁定鍵值

2018-03-28 16:56:28

主流四核移動處理器解析

2012-08-20 13:01:36

主流深度學習框架比較

DL：主流深度學習框架多個方向PK比較

2018-12-26 11:10:18

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關知識，介紹了AscendCL接口加載離線模型，為離線模型準備數據結構以及調用離線模型進行推理的過程。簡單來說，曻騰的AscendCL的推理工程可以問為

2023-08-24 11:04:14

AssetsLibrary框架詳細解析—— 基本概覽

AssetsLibrary框架詳細解析（一） —— 基本概覽

2020-04-29 15:12:25

C語言要點解析PDF下載

C語言要點解析(含便于理解的備注)C語言要點解析(含便于理解的備注).pdf 2016-10-27 17:59 上傳點擊文件名下載附件 1.08 MB, 下載次數: 8

2018-07-19 09:15:26

Dllite_micro （輕量級的 AI 推理框架）

DLLite-Micro 是一個輕量級的 AI 推理框架，可以為 OpenHarmony OS 的輕量設備和小型設備提供深度模型的推理能力DLLite-Micro 向開發者提供清晰、易上手的北向接口

2021-08-05 11:40:11

EIQ onnx模型轉換為tf-lite失敗怎么解決？

tf-lite 框架是否支持使用npu (nnapi) 以float16 精度進行推理嗎？（PS：原始模型是onnx）c) 是否推薦使用 NPU 對 float 16 進行推理？ONNX runtme

2023-03-31 08:03:03

Github開源的數字手勢識別CNN模型簡析

TensorFlow遷移到RKNN3.3.1 模型的加載3.3.2. 圖像的預處理3.3.3. 模型輸入與輸出3.3.4. 模型的推理

2022-04-02 15:22:11

HDF Camera 驅動模型解析

作者：潤和-徐大為1.Camera驅動概述相機系統對外向用戶提供預覽、拍照以及錄像等功能。內部簡單可分為3層：應用層（app&service）、相機驅動框架模型（CDDM）、硬件層

2021-11-15 17:33:09

HarmonyOS：使用MindSpore Lite引擎進行模型推理

使用 MindSpore Lite 推理框架時，需要釋放已經創建的模型。 // 釋放模型 OH_AI_ModelDestroy(&model); 調測驗證編寫 CMakeLists.txt

2023-12-14 11:41:13

Photos框架詳細解析

Photos框架詳細解析（一） —— 基本概覽

2020-05-06 12:34:59

ROC-RK3308主板CC固件編譯的知識點解析，絕對實用

ROC-RK3308主板CC固件編譯的知識點解析，絕對實用

2022-03-09 07:29:04

SPI_NSS的知識點解析，絕對實用

SPI_NSS的知識點解析，絕對實用

2022-02-17 08:08:10

UART串口與LWIP以太網問題解析

《LWIP以太網問題解析》，干貨解讀！【技術三千問】之《FAT文件系統問題解析》，干貨匯總！【技術三千問】之《FLASH問題難點解析》，干貨匯總【技術三千問】之《SPI問題難點解析》，干貨匯總！【技術三千問】之《USB問題難點解析》，干貨匯總！【技術三千問】之《MQTT問題難點解析》，排坑指南！【

2021-08-05 06:54:19

k210可以采集傳感器的數據進行模型的推理嗎？

2023-09-14 08:52:56

pytorch模型轉為rknn后沒有推理結果

使用rknn的api讀取我的模型，進行轉換api可以成功轉換出rknn模型，但遇到的問題是：我使用測試數據調用rknn.inference進行推理，每一次的輸出結果都為[array([nan, nan

2023-01-11 18:45:48

subdev/video列表的知識點解析，絕對實用

subdev/video列表的知識點解析，絕對實用

2022-03-10 06:25:41

【直播預告】各類BGA類型芯片出線技巧與要點解析

本帖最后由鄭振宇altium 于 2021-3-30 22:05 編輯【直播預告】各類BGA類型芯片出線技巧與要點解析直播報名：http://t.elecfans.com/live

2021-03-30 22:03:56

【飛凌RK3568開發板試用體驗】RKNN模型推理測試

研的人工智能協處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進行推理應用程序開發。一、推理應用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平臺

2022-12-08 19:06:16

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

2023-11-05 18:22:42

關于I2C協議的知識點解析的太仔細了

關于I2C協議的知識點解析的太仔細了

2021-10-12 15:31:22

壓縮模型會加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導入到 STM32L462RCT我發現壓縮模型對推理時間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

圖像預處理和改進神經網絡推理的簡要介紹

為提升識別準確率，采用改進神經網絡，通過Mnist數據集進行訓練。整體處理過程分為兩步：圖像預處理和改進神經網絡推理。圖像預處理主要根據圖像的特征，將數據處理成規范的格式，而改進神經網絡推理主要用于輸出結果。整個過程分為兩個步驟：圖像預處理和神經網絡推理。需要提前安裝Tengine框架，

2021-12-23 08:07:33

在 ubuntu 上安裝騰訊推理框架 ncnn 的方法記錄

本教程詳細記錄了在 ubuntu 上安裝騰訊推理框架 ncnn 的方法。

2021-12-14 07:49:57

如何在RK3399上搭建Tengine AI推理框架呢

Tengine是什么？如何在RK3399這一 Arm64 平臺上搭建 Tengine AI 推理框架，并運行圖像識別相關應用？

2022-03-07 07:53:43

如何在RK3399這一 Arm64平臺上搭建Tengine AI推理框架呢

Tengine是什么呢？如何在RK3399這一 Arm64平臺上搭建Tengine AI推理框架呢？

2022-03-04 12:31:35

如何在一塊全新的全志D1開發板上跑個ncnn神經網絡推理框架的demo？

本文是一份教程，步驟騎著步驟 (step by step) 地展示了如何在一塊全新的全志 D1「哪吒」開發板上，跑個 ncnn 神經網絡推理框架的 demo。

2021-12-28 07:29:40

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。將權重轉換為 ONNX 文件，然后轉換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

對視頻圖像及其顯示的知識點解析，看完你就懂了

對視頻圖像及其顯示的知識點解析，看完你就懂了

2021-06-04 06:59:12

怎樣去解決rk1808相同模型推理速度變慢的問題呢

　　rk1808 相同模型速度變慢：　　rknn_server 0.9.4 （2078225 build： 2019-03-07 20:07:28）　　librknn_runtime version

2022-04-21 11:36:29

求助，為什么將不同的權重應用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權重是否會影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

消防報警系統的防雷防浪涌的知識點解析，絕對實用

消防報警系統的防雷防浪涌的知識點解析，絕對實用

2022-01-14 07:33:09

深度剖析OpenHarmony AI調度管理與推理接口

：管理資源引擎的相關內容。Engine：推理引擎，推理的主要功能都由它管理。PluginManager：管理框架調度器的配置與工具。插件：管理框架與推理模型的加載、卸載。AIInterpreter：手機

2022-03-25 11:15:36

用tflite接口調用tensorflow模型進行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實現通用模型的部署。本文主要實現用tflite接口調用tensorflow模型進行推理。相關源碼見鏈接引言本文為系列博客

2021-12-22 06:51:18

請問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構計算嗎？

2023-09-14 08:13:24

WiMAX技術的特點解析

WiMAX技術的特點解析 802．16標準是為在各種傳播環境（包括視距、近視距和非視距）中獲得最優性能而設計的。即

2009-05-21 01:18:15

527

三大主流觸摸屏技術解析

三大主流觸摸屏技術解析中心議題：主流觸摸屏技術分析解決方案; 單點觸摸屏一點

2010-01-30 10:06:57

787

正投、背投、吊裝以及桌面安裝的優缺點解析

正投、背投、吊裝以及桌面安裝的優缺點解析 大家都知道，投影機一般有四種安裝方式，包括有：正投、背投、吊裝以及桌面四種，一般情況下人

2010-02-04 17:19:47

12912

LTE技術特點解析

LTE技術特點解析 　據國外媒體報道，美國電信運營商AT&T剛剛與愛立信和阿爾卡特朗訊簽訂了以長期演進(LTE)技術架設4G移動通信網絡的協議，LTE還將是即將在巴塞羅

2010-02-11 10:19:09

1144

全球知名十大主流汽車懸架盤點(組圖)賞析

全球知名十大主流汽車懸架盤點(組圖)賞析一、鋼板彈簧式非獨立懸架

2010-03-11 10:02:41

3738

無線通信和有線接入的異同點解析

無線通信和有線接入的異同點解析 建設通信鏈路的方式無非是有線和無線兩種。在初期規劃時，選擇有線還是無線通信，或是有線無

2010-03-13 10:23:12

1144

聚光光伏發電系統的技術難點解析

聚光光伏發電系統的技術難點解析 　一、前言　　太陽能發電系統的價格

2010-04-20 09:11:04

654

大型風力發電機轉軸加工工藝難點解析

大型風力發電機轉軸加工工藝難點解析_王艷芳

2017-01-01 16:24:03

Android開發中難點解析及幫助

根本說講述的是Android 開發中難點解析及幫助，希望對各位工程師朋友有所幫助。

2017-09-14 20:24:06

盤點5大主流CSS框架,你知道哪些

作為開發工具，CSS框架一直處于不斷進化和改進的狀態，因此我們強烈建議您關注眼下的趨勢。這篇文章會帶您了解2017年最流行的5種CSS框架。

2017-10-29 11:21:30

10618

ofdm技術的優缺點解析,ofdm技術原理介紹

ofdm技術是一種無線環境下的高速傳輸技術，下面我們主要來看看ofdm技術的優缺點解析以及ofdm技術原理介紹。

2017-12-12 11:12:00

86574

基于人機協同的潛在意圖檢測模型和技術框架

潛在意圖檢測旨在通過意圖主體行為推理意圖主體的隱式意圖，從而在更高的層面理解意圖主體潛在的真實意圖．提出了一種多領域數據環境下人機協同的潛在意圖檢測模型和技術框架．該意圖檢測模型擴展了動態意圖

2018-01-03 11:35:44

TI公司C2000DSP工程師培訓要點解析

TI公司C2000DSP工程師培訓要點解析。

2018-04-08 17:36:27

iPhoneX亮點解讀

iPhone X亮點解析 原來9688元買到了這些

2019-01-21 11:22:41

3393

盤點分布式存儲系統的主流框架

整個大數據處理的體系，按我的理解可以分為兩個部分，一個是分布式存儲系統、另一個是分布式計算框架。分布式存儲系統主流是HadoopDFS，其他還有Ceph和Swift。分布式計算框架主流是MapReduce，Storm和Spark。

2020-08-06 09:07:08

2402

英特爾推出了Stratix 10 NX FPGA著眼于AI模型訓練和推理

VMware使用Xilinx Alveo U250加速卡進行測試，通過Docker容器提供了機器學習模型，該容器與FPGA制造商的新Vitis AI開發堆棧集成在一起，用于機器學習推理。開源堆棧支持Caffe和TensorFlow框架。

2020-09-10 16:32:17

2342

一種基于機器學習的流簇大小推理模型

數據中心網絡需要更加高效的推理模型提升流簇大小判斷的準確性和敏感性。提岀了一種基于機器學習的流簇大小推理模型（ Mlcoflow），利用極限學習杋（ELM）以最小訓練誤差為求解目標建立推理模型，并且使用不完全信息建模以提升敏感度。實驗證

2021-04-02 11:38:16

基于STM32的紅外遙控重點解析資料下載

電子發燒友網為你提供基于STM32的紅外遙控重點解析資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

2021-04-24 08:52:44

可滿足中企的企業數據影響力評估模型框架

針對企業數據利用率低、數據質量評估難等問題，考慮中國企業數據治理和應用需求，聯合美國RMDS實驗室從企業數據應用的角度，創造性地加入數據科學評估維度，提岀了兼容現有主流評估模型且更滿足中國企業需求

2021-04-28 13:56:37

基于boosting框架的混合秩矩陣分解模型

2021-06-11 14:41:47

超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐，探索這一框架如何助力

2021-10-11 16:46:05

2226

探究超大Transformer語言模型的分布式訓練框架

2021-10-20 09:25:43

2078

NVIDIA推理平臺和全棧方法提供最佳性能

現在，您和開發人員社區的其他成員都可以使用這些成果，主要是以開源軟件的形式。此外， TensorRT 和 Triton 推理服務器可從?NVIDIA NGC?免費獲得，以及預訓練模型、深度學習框架

2022-04-08 16:31:31

931

基于COCO的預訓練模型mAP對應關系

最近一段時間本人已經全部親測，都可以轉換為ONNX格式模型，都可以支持ONNXRUNTIME框架的Python版本與C++版本推理，本文以RetinaNet為例，演示了從模型下載到導出ONNX格式，然后基于ONNXRUNTIME推理的整個流程。

2022-10-10 11:40:55

957

基于 Boosting 框架的主流集成算法介紹（上）

本文是決策樹的第三篇，主要介紹基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。 XGBoost

2023-02-17 15:57:58

739

基于 Boosting 框架的主流集成算法介紹（中）

本文是決策樹的第三篇，主要介紹基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。 XGBoost

2023-02-17 15:58:02

448

基于 Boosting 框架的主流集成算法介紹（下）

本文是決策樹的第三篇，主要介紹基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。 XGBoost

2023-02-17 15:58:05

2251

深度拆解ChatGPT服務器的框架

AI模型對算力的需求主要體現在訓練和推理兩個層面。當前主流的人工智能算法通常可分為“訓練”和“推理”兩個階段。

2023-03-10 15:32:35

1375

GTC 2023：多模態短視頻模型推理優化方案解析

　　多卡推理--流水線并行：將模型和數據切分，以流水線形式計算，提高GPU利用率。模型切分策略：依照各部分的計算時間和參數量設計。

2023-03-23 18:17:33

1921

ChatGPT:AI模型框架研究

　　一、AI框架重要性日益突顯，框架技術發展進入繁榮期，國內AI框架技術加速發展：　　1、AI框架作為銜接數據和模型的重要橋梁，發展進入繁榮期，國內外框架功能及性能加速迭代；　　2、Pytorch

2023-03-29 17:06:16

飛凌嵌入式RK3588開發板推理模型轉換及測試

RKNN（Rockchip Neural Network）是一種用于嵌入式設備的深度學習推理框架，它提供了一個端到端的解決方案，用于將訓練好的深度學習模型轉換為在嵌入式設備上運行的可執行文件。

2023-06-05 16:11:47

736

Pytorch Hub兩行代碼搞定YOLOv5推理

Pytorch Hub是一個幫助研究者實現模型再現、快速推理驗證的預訓練模型庫與一套相關的API框架。支持遠程從github上下載指定模型、上傳與分享訓練好的模型、支持從本地加載預訓練模型、自定義

2023-06-09 11:36:27

669

教你如何用兩行代碼搞定YOLOv8各種模型推理

大家好，YOLOv8 框架本身提供的API函數是可以兩行代碼實現 YOLOv8 模型推理，這次我把這段代碼封裝成了一個類，只有40行代碼左右，可以同時支持YOLOv8對象檢測、實例分割、姿態評估模型的GPU與CPU上推理演示。

2023-06-18 11:50:44

1891

測評分享 | 如何在先楫HPM6750上運行輕量級AI推理框架TinyMaix

推理框架，官方介紹如下：TinyMaix是面向單片機的超輕量級的神經網絡推理庫，即TinyML推理庫，可以讓你在任意單片機上運行輕量級深度學習模型。甚至在Ardui

2022-12-12 17:57:36

867

TorchVision框架下模型導出并部署到ONNXRUNTIME C++全流程解析

ONNXRUNTIME是主流的深度學習部署框架之一，支持ONNX格式模型在CPU、GPU、ARM等不同硬件平臺上加速推理，支持C++、Python、Java、C#、JS等不同語言SDK。C++版本安裝包下載如下。

2023-07-13 14:46:24

684

大模型部署框架FastLLM實現細節解析

接著大模型部署框架 FastLLM 簡要解析這篇文章首先梳理了一下FastLLM的調用鏈和關鍵的數據結構，然后解析了 FastLLM 的一些實現細節和CPU/GPU后端實現采用的優化技巧。

2023-07-27 10:48:27

734

三種主流模型部署框架YOLOv8推理演示

深度學習模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個主流框架，均支持Python與C++的SDK使用。對YOLOv5~YOLOv8的系列模型，均可以通過C++推理實現模型

2023-08-06 11:39:17

1677

深度學習框架區分訓練還是推理嗎

模型，以便將來能夠進行準確的預測。推理是指在訓練完成后，使用已經訓練好的模型進行新的預測。然而，深度學習框架是否區分訓練和推理呢？大多數深度學習框架是區分訓練和推理的。這是因為，在訓練和推理過程中，使用的是

2023-08-17 16:03:11

906

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機器學習模型轉換成算能芯片上運行的bmodel模型。由于浮點數的計算需要消耗更多的計算資源和存儲空間，實際應用中往往采用量化后的模型（也稱定點模型）進行推理。相比

2023-10-10 10:17:42

484

介紹一款基于昆侖芯AI加速卡的高效模型推理部署框架

昆侖芯科技公眾號全新欄目“用芯指南”重磅推出！面向AI行業技術從業者，系列好文將提供手把手的昆侖芯產品使用指南。第一期圍繞昆侖芯自研效能工具——昆侖芯Anyinfer展開，這是一款基于昆侖芯AI加速卡的高效模型推理部署框架。種種行業痛點，昆侖芯Anyinfer輕松搞定。

2023-10-17 11:16:43

799

澎峰科技發布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發布chatGPT之后，基于 Transformer 網絡結構的語言大模型（LLM）引發了全世界的注意與追捧，成為了人工智能領域的里程碑事件。但大模型推理所需

2023-11-25 15:35:01

383

谷歌模型框架是什么？有哪些功能和應用？

谷歌模型框架（Google Model Framework）并不是一個特定的框架，而是指谷歌開發的一系列軟件框架，用于支持機器學習和人工智能的應用。以下是一些與谷歌模型框架相關的關鍵組件和技術：

2024-02-29 18:11:50

545

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發的用于機器學習和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個開源的機器學習框架，由谷歌的機器學習團隊開發，用于構建和訓練各種機器學習模型。

2024-03-01 16:25:27

159

AI推理框架軟件ONNX Runtime正式支持龍架構

近日，知名AI推理框架開源社區ONNX Runtime正式發布支持龍架構的版本1.17.0。

2024-03-12 12:23:20

225

已全部加載完成

搜索歷史

主流大模型推理框架盤點解析

評論