账号密码登录
验证码登录
微信登录

30天内自动登录

忘记密码注册新用户

账号申诉

30天内自动登录

忘记密码注册新用户

账号申诉

登陆成功

积分

首页

模型力 + 计算力 + 产品力 = 云路可落地的数智化雄心

来源：云路科技信息作者：云路人事 2024-05-29 3627阅读

[罗戈导读]在企业经营中，主观决策可能导致偏差，而算法模型提供了一种科学的决策工具。云路科技通过2年努力构建了“模型力+计算力+产品力”的数智化生态，提升决策质量和效率，助力快递物流行业的高效运营。他们自研的生态体系解决了数智化转型的挑战，以科技驱动业务发展，赋能行业变革。

作者：机器学习姜东晓

感谢林嘉华，孙海林，刘玉龙，李梓维，李彦池，夏伯承，孙兴，肖思远，蒋捷，邢而上，彭派等同学对文章内容的贡献。

01序言

人类对世界的理解是主观而感性的，我们很自然地用习惯的思维方式去与这个真实的世界发生着关联。然而，在企业生产经营活动中，这种主观性就不那么受欢迎了，可能会导致复杂商业环境中的决策偏差。于是，一种科学的、数理的、客观的技术工具—算法模型就应运而生。我们使用它来发掘和提炼隐藏在事物表象下的真实规律，以求将隐性知识转化为理性智慧，去提升复杂环境下的各类决策质量，辅助决策者打开 “善弈者谋势” 的全局视野。

这里的决策一词，大家可以理解成宏观的概念，它可以指人的规划、判断和决定，也可以指信息系统内的各类功能。让决策质量从 “有限理性” 和 “满意即可” 过渡到 “极限理性” 和 “最优选择”，便是数智化的初心 ❤️🔥。

02正文

但我们在这篇中想说的，并不是数智化决策的具体案例，而是回顾 2 年多来云路科技成功构建起数智化生态的过程，对此做一个总结。

很幸运的是，我们置身于高速发展壮大中的快递物流行业，它拥有着丰富的业务数据和庞大的场景规模，这天然地提供了孕育数智化的土壤。然而，纵观市场上各行各业的公司前赴后继，试图探索出一条技术数智化转型之路，并完成商业模式的持续迭代，却成功者寥寥。那么数智化雄心与实际执行之间的落差，要如何克服和解决呢？

科技的价值，在这一过程中得到体现。云路科技历经 2 年半时间，从无到有，潜心探索并沉淀了围绕数智化的 “模型力 + 计算力 + 产品力” 的完整生态。该生态可以想象成一条生产流水线 Pipeline，它让基于模型的数智化产品有了设计、训练、生产和部署的完整链路，并让每个环节都更加标准、顺畅、高效。该生态的逐步成熟，意味着云路可以更快地将数智化产品推向市场，让更多的业务功能享受到数智技术带来的好处。

👉 云路算法模型的技术能力是整个生态的底座，当它达到稳定进入实际生产环节的水平，应用层就能不断开发出有突破性、有质量的应用。👉 伴随着模型应用数量的不断增加，产品团队将数字思维和创新理念融入产品设计过程，强调将行业洞察和模型能力结合，从解决业务问题的角度孵化出许多合适的项目，这将在快递业务的方方面面（分拣、派送、时效、客诉、决策）产生巨大的企业回报。👉 而能够支撑起超大规模的模型产品落地，基础设施层的建设和优化从未间断，云路自建高性能科学计算私有云和机器学习平台，让模型能以工业级别的规模和速度完成产品化。

如果用一架高速飞驰的动车🚅来比喻，“模型力” 是调度中枢，“计算力” 是铁轨和动力系统，“产品力” 将调度能力和动力源整合并转化为运输价值，换回经济收益。

值得自豪的是，“模型力 + 计算力 + 产品力” 整个数智化生态，是云路科技团队从无到有完全自研、自主摸索和积淀的，所以能做到 100% 掌握、100% 可控、100% 安全。

而拥有数智生产体系更深一层的意义和价值，是科技让业务具备了参与行业数智化转型的技术实力和底气。先上牌桌，才有发言权🙋‍♂️。

03实践

“模型力 + 计算力 + 产品力” 这三大能力犹如齿轮，环环紧扣，相鼎而立。要想极致优化整个数智生态的生产速度和部署速度，既要提高三个齿轮的各自转速，也要兼顾三者之间的“配合能力”。

我们以一个用户地址数据的例子，来看云路科技打造数智化全栈能力（模型力 + 计算力 + 产品力）的过程。

p202405/29/hrbmPhsGrH.gif

模型力 : 强调在 AI 技术、尤其是算法模型技术上的长期投入和积累

用户地址数据在快递物流行业中扮演着至关重要的角色。在收寄货环节，用户地址信息被用于将收寄货人的位置标识到收寄责任网点，确保包裹能够正确分拣和准时送达；根据用户地址数据进行配送网络的优化，根据地址分布制定最佳路线和派送策略，提高送货效率和运营成本的控制；通过分析基于用户地址的包裹数据，物流企业还可以了解各地区的市场需求和物流趋势，以便进行精准的业务规划和资源配置。

用户地址数据如此重要，需要对它有全方位综合的解析能力，来支撑上述多种多样的功能需求。

以国内三段码项目为起点，云路就在布局使用 AI 进行用户地址解析的技术，储备相关能力。一开始机器学习只研发了中文地址文本分类这个单一的模型，支撑国内三段码这一个应用。可这段培育摸索期的经历，让云路意识到了快递行业拥有大量与地址相关的场景，最终都会指向地址文本解析的模型能力，所以就进入了模型开发的加速期。

又经过 1 年的技术研发，目前几乎所有围绕地址解析的模型能力，都已被机器学习团队全面、深刻地掌握，这包括多级文本分类、序列标注、实体识别信息提取、语义纠错、信息补全、知识图谱构建、海外多语种解析等（下图）。

p202405/29/srhgho53oM.jpeg

其中一些模型能力，比如地址信息补全和语义纠错，效果上甚至超越了某些第三方地图厂商的商用 API；

再比如知识图谱模型，可以理解为一种新型的数据存储方式，基于它可以建立起业务上标准五级/六级地址库，甚至是基于地址库的信息库。这会让未来的快递信息以一种更加生动、立体、高效的方式关联。比如一条地址，因为在知识图谱里存储了它对应的转运中心、派件网点、派件区域、派件员、所属驿站、所属小区、地址绑定的用户，以及这些属性的画像信息（比如所属驿站的类型和日均单量、派件网点的服务指数、所属小区的画像标签）等，在搜索时就可一并带出，非常具备整合性和前瞻性。

在完成上述算法模型积累的过程中，机器学习团队的技术视野越来越开阔，所涉猎的领域也自然地向全栈扩展。从算法模型层出发，我们的能力向上游延展到数据资源层和能力基座层，向下游延伸到应用服务层和解决方案层，一步步填补了算法技术架构的空白。

以地址解析为例（下图），完整的算法架构包括数据资源层、能力基座层、模型任务层、应用服务层和解决方案层共 5 层。

p202405/29/SWsqtDKySx.jpeg

首先，在数据资源层，机器学习和大数据合作，打通底层业务数据，构建双层数据资源库。连通来自一线的数据(包括 JMS 行政区划、网点地址库、派件网点采集、外部地理信息等)，再进行质量评估和过滤，生成模型可以理解并用来训练的细颗粒度标准地址库和地理经纬度库。机器学习团队的算法后台工程师经过对比，筛选了 Airflow 工作流平台体系来完成海量数据高效流转的定时任务。在这些定时任务中，基于底层 Spark 特性和 Hive 同步 ClickHouse 的特有需求，后台工程师实践了分布式、高性能、易扩展、用于海量数据离线&实时同步的 WaterDrop 插件和 SeaTunnel 数据集成平台，生产上启用了WaterDrop和Seatunnel之后，Airflow工作流每天可以稳定高效地同步各类模型训练的数据接近数十亿，大大简化了分布式数据流转和处理的难度。

其次，在数据资源层和算法模型层之间，机器学习算法工程师补全一个预训练模型层，把专业领域的垂类知识(比如空间关系、地理经纬度、地址文本向量表征等)重新让通用预训练模型学习、理解，引导百科全书般的通用预训练模型在具体领域(比如快递地址知识)更加精通和专业，提升基础能力基座，这样基于预训练的多个算法模型，有可能获得更好的学习能力。

接下来，在基础能力层之上是算法模型层，在前面已提及的多个模型(多级文本分类、实体识别、语义纠错、信息补全、知识图谱构建、海外多语种解析等)属于这部分内容。

然后，在算法模型层之上是应用服务层，它完成的是将模型能力部署在推理服务器上，以接口形式在生产环境提供 MaaS(Model as a service 模型/知识即服务)服务，这层也是工程能力非常集中和显著的模块。机器学习后台工程师考虑到地址解析服务的高性能要求，选择采用 NVIDIA 的 TensorRT 对深度学习模型进行推理加速，并利用 NVIDIA Triton Inference Server在A30 GPU 上进行在线部署，在提升性能体验的同时，大幅降低了推理成本。TensorRT 是专门针对深度学习模型实现高性能推理的框架，在地址解析项目里，机器学习主要使用了 TensorRT 中的 1)层与张量融合来优化 GPU 显存和带宽的使用；和 2)动态批处理减少实时请求的显存占用，提高张量重复利用内存的能力。此外，机器学习使用 Triton 的方式是将模型推理和其他业务隔离，模型统一部署在 triton server，其他业务基于 http 协议通过Triton Client 来进行模型推理的请求。

除了模型推理模块的性能，调用 Triton Client 的接口也是全链路性能不可忽视的一环。机器学习通过响应式编程完成接口应用开发，实现了更高的性能和降低的 Pods 资源消耗。响应式编程的异步处理和事件驱动机制有效地提高了应用的响应速度和吞吐量，减少了延迟和卡顿现象。这使得应用能够更好地处理突发请求，提供更流畅的用户体验。同时，响应式编程的优化和代码简化也降低了应用的资源消耗，包括 CPU、内存等方面。不仅能够降低云资源的成本，还能够提高应用的扩展性和可伸缩性，更好地适应高负载和峰值访问情况。

经过上述一系列性能优化措施，业务峰值请求地址解析的均值从 120 毫秒降低到 20 毫秒，提升了 6 倍，得到了显著改善。

另外，在保障应用服务层的高可用方面，机器学习设计了模型和 Elasticsearch 双链路模式，并对 Elasticsearch 辅助地址解析的准确率和性能进行了优化。具体来说，我们使用了 1）基于空间和时间的路由提高了检索效率：使用基于空间和时间的路由可以显著提高 Elasticsearch 的检索效率。这种路由策略基于数据的地理位置和时间信息，将搜索请求路由到最有可能包含所需数据的分片上。通过合理规划和分布数据，可以最大程度地减少网络开销和分片的数量，提高整体的检索性能。2）使用自定义分词器过滤无效信息提高地址信息熵：为了提高地址信息的熵（entropy）和准确性，可以使用自定义分词器来过滤掉无效的信息。在地址信息中，可能存在一些常见词汇、停用词或噪声数据，这些信息对于搜索和分析来说并不具有实质性的作用。通过使用自定义分词器，可以根据特定的需求和语言规则，过滤掉这些无效信息，提高地址信息的质量和准确性。3）使用基于 POI（Point of Interest）的自定义词库提高分词准确性：为了提高分词的准确性，可以利用基于 POI 的自定义词库。POI 是指具有特定地理位置的兴趣点，例如商店、餐馆、景点等。通过构建一个自定义的词库，包含各种常见的 POI 名称和相关词汇，可以在分词过程中更好地识别和理解这些特定的地理位置信息，尤其在与地理位置相关的搜索和分析场景中更加有效。目前 Elasticsearch 辅助链路的准确率与性能和模型主链路不相上下，可以在关键时刻快速分流模型压力。

最后，在算法架构的顶端是涉及产品功能的解决方案层，这部分也是 “产品力” 的核心，将模型技术用于实际问题解决，才最终转化为企业价值，下一章节会着重介绍。

机器学习团队将数据资源层、能力基座层、算法能力层和应用服务层这 4 层整合为一个综合的地址文本解析中台，以MaaS（Model as a service 模型/知识即服务）的方式，向公司内部所有需要该能力的产品和业务团队赋能，涵盖了业务上几乎所有与地址相关的功能应用。并且，该中台的完整性和成熟度很高，已具备了向公司外、行业里进行商业输出的能力。

在一步步搭建该中台的过程中，云路也收获了 12 项发明专利授权，打下了坚实的技术护城河。

产品力 : 专注于打磨和提升将技术转化为企业回报的能力

科技团队利用自身优势，将数字思维和创新理念融入产品设计和开发过程，强调将行业洞察和模型能力结合，从解决业务问题的角度思考、孵化出许多合适的项目，这也是科技呈现价值的关键一环。

还是以机器学习的地址解析中台为例：如下图所示，2021 年 7 月 12 号，产品团队将1）国内三段码上线，成为了地址中台的首个应用。后又陆续在地址中台里增加了 2）基于 ES 的标准地址库、3）国内四段码、4）地址业务上图、5）泰国三段码、6）国内驿站码、7）国内乡镇识别、8）印尼三段码、9）菲律宾三段码、10）越南三段码、11）马来三段码、12）基于知识图谱的标准地址库、13）商用地址结构化数据获取、14）商用地址经纬度信息获取等。这些应用目前已服务于订单业务、运单业务、网点业务、操作业务、服务质量等20+个对外接口，比如拼多多、抖音、快手、京东等大型电商平台的订单三段码请求、或者是回退件地址解析、寄件用户地址解析、转运中心二次解析、客诉工单地址解析等，全部调用该地址中台。地址解析中台的模型日均总调用量达到 1 亿次以上，是云路科技内部又一个成熟、稳定的亿级系统。它就如一个金字塔的底端，支撑起业务上层应用的方方面面。

p202405/29/iutmZHat8j.png

比如乡镇件加时，是对地址里四级行政区划即乡镇进行识别的功能。地址解析中台提供了信息补全模型/语义纠错模型 + 序列标注模型 + 信息提取模型的组合，对缺失的、错误的地址可以还原并识别正确的乡镇。当然，不仅仅是乡镇件加时，所有基于地址的功能，都可以从三级区细化到四级乡镇了，整体提升了业务运营和管理的精细化水平。

比如驿站码，是将收件地址直接与快递末端驿站关联，并和一二三段码一起打印在电子面单上。地址解析中台提供了多级地址分类模型来实现。上线后，驿站码的准确率比第三段码还高 3%，达到了 96%~97%，这让第三段码不稳定的网点可以通过驿站码进一步提升分拣效率，也可以将大型驿站的包裹提前在转运中心就利用数智设备进行分拣集包，减少操作环节，提升整体派件时效。

“一带一路” 是中国提出的重大战略，旨在加强与沿线国家的经济合作，促进区域互通互联。除中国外，业务覆盖的其他 12 个国家大部分是一带一路辐射范围内的伙伴国。所以地址解析中台自研多语言地址分类模型，积极向 J&T 海外各国输出。目前 J&T 泰国、J&T 印尼和 J&T 菲律宾已经上线，三个国家的二段码准确率较之前提升了 8% ~ 13%，达到了 98% 以上。而且三段码上线后，不再需要实时调用谷歌地图，也不再需要高昂的人工维护地址库成本，在成本、性能、准确率和安全性方面均实现了优化提升。接下来，科技还会与 J&T 越南、J&T 马来合作落地，用数智化力量为全球业务提速。

计算力 : 数智化生态的动力源，科技持续投入算力互联、计算加速和功耗优化

数智化是需要使用大算力、大模型、大数据来 “大力出奇迹” 的过程，所以基础设施能力必须跟上。而基于 CPU 芯片的服务器不像专门的 GPU 服务器那样在浮点运算性能方面进行过优化。一般 CPU 处理器的浮点运算性能通常以 MFLOPS（每秒百万次浮点运算次数 10^6）或 GFLOPS（每秒十亿次浮点运算次数 10^9）为单位衡量，这无法撬动模型训练和推理。GPU 服务器专注于并行计算和矩阵/张量处理任务，算力可达 TFLOPS，即每秒一万亿 =10^12 次的浮点运算。而像国家超算中心的天河一号、二号和神威太湖之光这类服务器的浮点运算性能可以达到 PFLOPS（每秒一千万亿次浮点运算次数 10^15）。

云路于 3 年前开始投入，硬件集群上历经三期建设：第一期仅 2 台高性能计算服务器用于机器学习团队研发；第二期 10 多台服务器开始有了功能服务级别的算力集群雏形，做到了研发、测试和生产集群的区分隔离；到第三期 40~50 台高性能计算服务器、PB 级存储设备以及高带宽、高传输速率网的齐全，让大规模分布式计算集群最终落成。

这让云路有能力训练亿级参数的大模型（注：ChatGPT 是千亿级规模的超大模型）。而亿级参数规模，是一个什么概念呢，把全中国所有的大学、科研机构和企业中的模型都加起来，也只有两位数的亿级参数模型发布。可见云路为了数智化所持续投入的基础设施，在全国都是领先的。

这么一个算力的庞然大物要转动它、用好它，平台运维团队基于 Kubernetes 的编排和调度能力，将集群打造成一个工业级别的 GPU 高性能算力私有云。私有云的概念是机器设备间弱化了硬件的边界，机器拥有的算力资源虚拟化到一个资源池中，让算力成为一种公共资源，哪里需要调去哪里。这样极大提升了机器学习团队进行模型训练的效率。在搭建私有云之前，用一台机器需要训练 3 天的模型，现在用私有云的算力训练不到 1 天就可以完成。

p202405/29/SR8whYzsHo.jpeg

在这套高性能算力私有云之上，机器学习团队继续自研了机器学习平台（上图），包括模型训练平台，容器云平台和 AI 服务接口。通过多种措施，期待以高性价比的训练方式进一步挤压算力。团队在模型训练平台上引入了 5 种训练加速机制，在训练成本压缩、训练频率加快上取得了显著的效果。首先，我们采用了 FP32+FP16 混合精度计算加速。传统深度学习模型使用单精度浮点数（FP32）进行计算，以确保计算结果的精度，但这会消耗大量计算资源，降低训练速度。我们采用混合精度计算，即在大部分计算过程中使用较低的精度（FP16），只在关键环节（如权重更新）使用 FP32，实验证明与更消耗资源的单精度方案相比，混合精度方案既保证了训练的稳定性和准确性，又显著提高了训练速度。其次，我们引入了XLA模型图优化加速。XLA 是谷歌开发的专门针对机器学习的编译器技术，通过优化模型的计算图，将其转化为更高效的代码，实现加速。XLA 在编译时静态地分析模型的计算图，找出可并行或合并的操作，并将复杂的计算图转化为优化后的高效代码。这使得模型的训练和执行速度大大提升，继续提速到原有的 60% 。第三，我们参考了相关论文对模型的优化器进行了修改。相比于原版 Adam Optimizer，我们的修改在模型收敛效果上没有差异，但收敛速度提升了30% 以上，这样的优化可以在保证模型收敛性的同时提高训练速度。第四，我们采用了 Horovod 单机多卡数据并行加速。Horovod 是一种开源的分布式深度学习训练框架，能够在多个 GPU 或服务器之间并行训练模型，大大提高了训练速度。Horovod 利用 Ring-Allreduce 算法有效减少了网络通信开销，使得即使在大规模并行训练中也能保持高效性能。最后，我们采用了梯度累积更新加速。在标准的梯度下降训练过程中，每个批次的数据都会进行一次参数更新，但频繁的更新操作会消耗大量计算资源。因此，我们选择将若干批次的梯度累积起来，一次性进行参数更新。这种方法既保证了模型的收敛性，又显著提高了训练速度，节省了计算资源。

通过三期硬件、私有云中心、机器学习平台三方面的建设，在线下训练模块，我们成功将同样一个模型的训练时间从 24 小时缩短到 8 小时，提升了训练速度超过 3 倍；在线上推理模块，同样算力条件和性能要求下，优化前只能支撑 4000~5000 万次/每日的模型调用，而优化后可达到 1.2 亿次/每日的模型调用，也是接近 3 倍的性能提升。这不仅提高了模型的训练效率，加快了生产上地址解析服务的迭代，满足了业务的高速迭代需求，同时也为公司节省了大量的算力资源成本。

这些关乎算力效能的优化，在模型产品的落地成本上有直观的体现：在推进数智化的过程中，我们深深感受到降低 AI 服务成本的重要性，只有把成本降低到企业可负担，经济收益显著大于资源投入，市场才会愿意更多去了解和使用 AI 数智化技术，所以算力互联、训练加速和功耗优化会继续是我们思考和投入精力的方向。

04后记

数智化的工作，理性却不冰冷，前沿但仍接地气。在 2 年半的时间里，云路科技从无到有，一步步扎扎实实地摸索、尝试、沉淀了模型力 + 计算力 + 产品力全套技术体系，在这个天然具备海量数据优势和大规模降本增效场景的行业里，它成为数字化智能化生根、发芽、开花的一片沃土。在物流行业激烈的市场竞争中，云路科技已稳稳占据了智能化的一席之地，帮助业务缩小了与行业头部在数智化上的距离。而且，也在支持业务出海的过程里，积极参与到中国“一带一路”经济建设的宏伟浪潮中来。接下来，AI 数智化会更多参与公司业务，探索在时效、服务、画像、决策等方向的落地场景，用科技为业务赋能，共创美好未来。

云路科技信息

服务平台技术数据行业

免责声明：罗戈网对转载、分享、陈述、观点、图片、视频保持中立，目的仅在于传递更多信息，版权归原作者。如无意中侵犯了您的版权，请第一时间联系，核实后，我们将立即更正或删除有关内容，谢谢！

上一篇：“超级探访”之走进猫人集团：探秘百亿科技内衣品牌背后的数智供应链

下一篇：供应链数字化再提速！菜鸟自研一物一码平台正式亮相

罗戈订阅

周报