NVIDIA Triton助力腾讯构建高性能推理服务

网友投稿 341 2022-11-07

NVIDIA Triton助力腾讯构建高性能推理服务

而过往在项目执行时,团队所面挑战包含:

1. 业务繁多,场景复杂

多模型融合流程比教复杂,涉及循环调用

支持异构推理

2. 模型推理结果异常时,难以方便地调试定位问题

3. 需要与公司内现有协议/框架/平台进行融合

基于以上挑战,腾讯 PCG 选择了采用 NVIDIA Triton 推理服务器,以解决新场景下模型推理引擎面临的挑战,在提升用户研效的同时,大幅降低了服务成本。

基于 C++ 的基础架构、Dynamic-batch、以及对 TensorRT 的支持,同时配合 T4 的 GPU,将整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%,既满足了业务的低延时需求,成本也降低了 20%-66%。

借助 Python Backend 和 Custom Backend,用户可以自由选择使用 C++/Python 语言进行二次开发。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库。DALI Backend 可以用于替换掉原来的图片解码、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,进一步提升服务端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%。帮助腾讯 PCG 各业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Spring bean配置单例或多例模式方式
下一篇:【 FPGA 】FIR滤波器开篇之传统抽头延迟线FIR滤波器实现介绍
相关文章

 发表评论

暂时没有评论,来抢沙发吧~