c语言sscanf函数的用法是什么
341
2022-11-07
NVIDIA Triton助力腾讯构建高性能推理服务
而过往在项目执行时,团队所面挑战包含:
1. 业务繁多,场景复杂
多模型融合流程比教复杂,涉及循环调用
支持异构推理
2. 模型推理结果异常时,难以方便地调试定位问题
3. 需要与公司内现有协议/框架/平台进行融合
基于以上挑战,腾讯 PCG 选择了采用 NVIDIA Triton 推理服务器,以解决新场景下模型推理引擎面临的挑战,在提升用户研效的同时,大幅降低了服务成本。
基于 C++ 的基础架构、Dynamic-batch、以及对 TensorRT 的支持,同时配合 T4 的 GPU,将整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%,既满足了业务的低延时需求,成本也降低了 20%-66%。
借助 Python Backend 和 Custom Backend,用户可以自由选择使用 C++/Python 语言进行二次开发。
NVIDIA DALI 是 GPU 加速的数据增强和图像加载库。DALI Backend 可以用于替换掉原来的图片解码、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,进一步提升服务端推理性能。
借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%。帮助腾讯 PCG 各业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~