正文

在使用 TensorRT 推理服务器时指定优化策略

 2023-02-16  76

关键词：

【中文标题】在使用 TensorRT 推理服务器时指定优化策略【英文标题】：Specifying Optimization Policy while using TensorRT Inference Server 【发布时间】：2019-04-09 15:21:17 【问题描述】：

我已成功使用 TensorRT 推理服务器为 Tensorflow 对象检测 API 模型提供服务，配置文件 (config.pbtxt) 如下：

name: "first_model"
platform: "tensorflow_savedmodel"
max_batch_size: 1
input [
  
    name: "inputs"
    data_type: TYPE_UINT8
    dims: [ -1, -1, 3 ]
  
]
output [
  
    name: "detection_boxes"
    data_type: TYPE_FP32
    dims: [ 100, 4 ]
  ,
  
    name: "detection_scores"
    data_type: TYPE_FP32
    dims: [ 100 ]
  ,
  
    name: "detection_classes"
    data_type: TYPE_FP32
    dims: [ 100 ]
  
]

我正在查看documentation，结果发现还有一种方法可以在config.pbtxt 中为模型指定optimization settings。然而，文档没有提到如何指定这些优化设置。我尝试将以下行添加到配置文件中

optimization_policy [
  
    level:1
  
]

并尝试为模型提供服务，但出现错误：Can't parse /models/first_model/config.pbtxt as text proto。但是，如果我删除与 optimization_policy 相关的行，我在服务时不会遇到任何问题。

如何在配置文件中指定优化策略/设置？

【问题讨论】：

【参考方案1】：

自己回答。通过在办公室 Github 存储库上提出问题得到答案。

您需要按照架构 here 使用 protobuf 文本格式格式化您的 config.pbtxt：

我相信你想要的是：

optimization   graph  level: 1

【讨论】：

tensorrt模型加速|网络结构优化|低精度推理

前言TensorRT 优化主要包括网络结构优化和低精度推理，本文将详细介绍这两种优化方式。其中网络结构优化通过“网络层及张量融合”实现，低精度推理通过使用FP16或INT8进行模型推理实现。一、低精度推理背景：... 查看详情

tensorrt模型加速2-优化方式

前言TensorRT 优化主要包括网络结构优化和低精度推理，本文将详细介绍这两种优化方式。其中网络结构优化通过“网络层及张量融合”实现，低精度推理通过使用FP16或INT8进行模型推理实现。一、低精度推理背景：神... 查看详情

ai性能优化之tensorrt（1tensorrt简介及安装）(代码片段)

文章目录正文1.NVIDIATensorRT介绍2.TensorRT的安装3.开发文档3-1开发流程3-2pythonapi1）工作流程2）核心元素3）...其他3-3PyTorchdemo3-4ONNXdemo正文1.NVIDIATensorRT介绍https://developer.nvidia.com/zh-cn/tensorrtNVIDIATensorRT™是用于高性能深度学... 查看详情

技术分享|浅谈tensorrt

...现有的一些训练框架（例如TensorFlow）已经集成了TensorRT，因此可以将其用于加速框架中的推理。另外，TensorRT可以作为用户应用程序中的库，它包括用于从Caffe，ONNX或TensorFlow导入现有模型的解析器，以... 查看详情

tensorrt-介绍-使用-安装(代码片段)

1简介 TensorRT是一个高性能的深度学习推理（Inference）优化器，可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持... 查看详情

在 python 上使用 TensorRT .engine 文件进行推理

】在python上使用TensorRT.engine文件进行推理【英文标题】：InferencewithTensorRT.enginefileonpython【发布时间】：2020-04-0410:30:07【问题描述】：我使用Nvidia的迁移学习工具包(TLT)进行训练，然后使用tlt-converter将.etlt模型转换为.engine文件。... 查看详情

为啥使用 TensorRT 使用 INT8 推理输出更多数据

】为啥使用TensorRT使用INT8推理输出更多数据【英文标题】：WhymoreoutputdatausingINT8inferenceusingTensorRT为什么使用TensorRT使用INT8推理输出更多数据【发布时间】：2019-06-1914:05:53【问题描述】：使用TensorRT实现INT8引擎推理。训练批次大小... 查看详情

如何保存从冻结推理图生成的 TensorRT 图？

】如何保存从冻结推理图生成的TensorRT图？【英文标题】：HowtosaveTensorRTgraphgeneratedfromfrozeninferencegraph?【发布时间】：2019-08-0118:40:06【问题描述】：我使用以下脚本将我的frozen_inference_graph转换为TensorRT优化的：importtensorflowastffromte... 查看详情

C++ TensorRT 批量推理给出了奇怪的结果

】C++TensorRT批量推理给出了奇怪的结果【英文标题】：C++TensorRTbatchinferencegivesweirdresults【发布时间】：2018-11-1410:13:20【问题描述】：大家好！我在TensorRT中执行批量推理时遇到问题。当批量大小为1时，它就像一个魅力，但当我将... 查看详情

如何优化用于 TensorRT 推理的 grid_sample 的自定义双线性采样替代方案？

】如何优化用于TensorRT推理的grid_sample的自定义双线性采样替代方案？【英文标题】：Howtooptimizethecustombilinearsamplingalternativetogrid_sampleforTensorRTinference?【发布时间】：2021-05-2512:21:44【问题描述】：我正在尝试通过ONNX（opset11）将带... 查看详情

tensorrt模型部署实战，英伟达平台，c++和python对比（包含源码）

本文介绍了可以使用C++API执行的TensorRT用户目标和任务。进一步的细节在Samples部分提供，并在适当的情况下链接到下面。假设您从一个已经训练好的模型开始。本章将介绍使用TensorRT的以下必要步骤：从模型中创建TensorRT网络定... 查看详情

tensorrt模型部署实战，英伟达平台，c++和python对比（包含源码）

tensorrt模型加速1-输入输出部署流程

前言本文首先简要介绍TensorRT的输入、输出以及部署流程，了解TensorRT在部署模型中起到的作用。然后介绍TensorRT模型导入流程，针对不同的深度学习框架，使用不同的方法导入模型。一、TensorRT简介TensorRT是NVIDIA公司... 查看详情

20191120-tensorrt(代码片段)

layouttitlecategoriestagsdatedescriptionpostInferenceFrameworkbasedTensorRTprojectinference优化2019-11-2015:00:00-0800在大规模服务上的推理引擎tensorrt引言视觉算法经过几年高速发展，大量的算法被提出。为了能真正将算法在实际应用场景中更好地... 查看详情

使用 NVIDIA TensorRT 推理引擎运行 TensorFlow

】使用NVIDIATensorRT推理引擎运行TensorFlow【英文标题】：RunTensorflowwithNVIDIATensorRTInferenceEngine【发布时间】：2017-04-2918:20:56【问题描述】：我想使用NVIDIATensorRT来运行我的Tensorflow模型。目前，TensorRT支持Caffeprototxt网络描述符文件。... 查看详情

如何设置本地模型存储库 - 带有 Minio 的 Tensorrt 推理服务器

】如何设置本地模型存储库-带有Minio的Tensorrt推理服务器【英文标题】：Howtosetlocalmodelrepository-TensorrtinferenceserverwithMinio【发布时间】：2019-05-2314:00:18【问题描述】：您好，我想设置Kubeflow-NVIDIATensorRT推理服务器，其存储库位于MinI... 查看详情

nvida-tensorrt部署(代码片段)

TensorRT是一个高性能的深度学习推理(Inference)优化器，可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持TensorFlow、Caffe、Mxnet... 查看详情

目标检测使用tensorrt加速yolov5(代码片段)

...节，当然是以程序员的方式来度过节日。很早就听说TensorRT可以加速模型推理，但一直没时间去进行实践，今天就来把这个陈年旧坑填补一下。背景知识在实践之前有必要了解一下相关知识。TensorRT简介TensorRT是可以在... 查看详情