特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

tensorflow serving及tensorrt 的踩坑记录

来源：互联网收集：自由互联发布时间：2021-06-22

此文记录一下算法实施过程中遇到的问题，整个过程基于Python技术栈，无缝集成到流式处理框架中，首先软硬件配置如下：服务器配置：64 cores,256G内存，GPU Tesla K80 (4个)； TensorFlow相关

此文记录一下算法实施过程中遇到的问题，整个过程基于Python技术栈，无缝集成到流式处理框架中，首先软硬件配置如下：
服务器配置：64 cores,256G内存，GPU Tesla K80 (4个)；

TensorFlow相关版本：
tensorboard 1.6.0
tensorflow 1.6.0
tensorflow-serving-api 1.6.0
tensorrt 4.0.0.3
cuda 版本 ?cat /usr/local/cuda/version.txt
cudnn 版本 ?cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

项目中需要提供高并发低延迟的在线predict，正好离线训练用的是TensorFlow的DNN模型，模型的hidden layer设置3层，
取的最终训练好的DNN的隐藏层的权重作为特征，可以类比FNN中用神经网络做了特征延伸，接下来要把训练好的DNN模型部署线上实时predict。
TensorFlow Serving可以提供多模型、多版本的版本发布，很适合迭代开发以及高频部署，具体的server端代码参照：

调用的client端代码参照：

如果我们还想进一步优化server端性能，比如进一步降低响应延时，该怎么办？

TensorFlow Serving只是帮我们更好的管理多版本模型及部署，使我们更便捷的对外包装接口，要想从神经网络内部去优化，我们可以借助NVIDIA TensorRT,

Tensorrt首先会将我们训练好的神经网络模型加载并优化，优化一些模型参数比如batch size, precision等，接着序列化到磁盘文件，如下图：

在线实时predict时，我们会加载磁盘文件并反序列化为TensorRT engine对象，可以看到TensorRT engine对象把之前的隐藏层及神经元都进行了优化，更适合GPU的数据运算，如下图：

在使用Tensorrt时需要对应的cuda、cudnn版本，TensorFlow 对应的的1.7以后的版本可以用Python编写涉及到TensorRT的代码，如下图：

结合物理机上测试数据，Tensorrt可以将TensorFlow serving的响应延时压缩30%以上。

refer：

https://tensorflow.google.cn/serving/

https://github.com/NVIDIA-AI-IOT/tf_trt_models

https://devblogs.nvidia.com/tensorrt-3-faster-tensorflow-inference/

https://www.nvidia.com/en-us/data-center/resources/inference-technical-overview/

上一篇：WPFの获取任意元素的位置
下一篇：域名系统 – SOA和主要NS记录(DNS)

tensorflow serving及tensorrt 的踩坑记录

相关文章