首发于数据分析知识笔记

机器学习工程 - 如何进行模型部署

机器学习工程 - 如何进行模型部署

概述

对于一个机器学习模型来说，完成训练过程通常并不意味着结束，真正的挑战才真正开始。从这张经典的机器学习系统的模块图来看，模型代码只占很小一部分，作为一名合格的数据科学家，理应掌握整个机器学习的工作流程，模型服务部署是其中一个十分重要的环节，因为只有当完成了模型部署，才能真正为业务创造价值。

因此这个系列就来学习部署模型的简单系统架构设计，对于机器学习的系统设计来说，有两个需要考虑的关键点，模型持久化方式和模型部署架构。

模型持久化（Model persistence）

模型持久化的意思是当我们训练完一个模型以后，用一种特定的方式将模型训练结果保存下来，以便在应用中直接调用，模型持久化的格式基本分为以下几种：

对于使用python搭建的机器模型，最简单的方式是直接使用官方库将模型储存为pickle格式，使用时再进行加载。这种方式优势在于简单便捷，缺点是兼容性较差，首先pickle格式只能用于python，当你的生产环境需要其他语言时，则无法直接调用。其次pickle的序列化和反序列化过程也和python版本有关，切换python版本后可能会导致解析失败。

因此这就引入了第二种通用交换格式，常见的两种格式是 Open Neural Network Exchange(ONNX)和 Predictive Model Markup Language(PMML)。使用通用格式的好处是不受语言和版本的限制，从模型可重复性和质量控制角度来看，是一种更优的格式，缺点是需要进行额外的格式转换。幸好有一些第三方库提供了格式转换的功能，以机器学习包sklearn为例，目前 sklearn-onnx和 sklearn2pmml 可以用来进行格式转换。

第三种方式使用第三方机器学习流程框架进行模型部署，框架已经为我们做了部署流程的基础工作，使我们只用把精力放在模型上即可。

先留一个站位坑，之后填补模型持久化的具体操作。

模型部署架构

模型部署涉及到当我们已经拥有了一个模型以后，用户如何使用来预测新数据，模型部署方案的选择是便捷性和灵活性之间的权衡。按照从简单到复杂，有四种通用的部署方式。

第一种方式最简单，也是唯一一种离线部署的方式，有点像通常的ETL流程，设置定时任务每天定期收集完新数据并进行预测，之后写入数据库中供查询使用。这种方式适用于对实时性要求不高的场景。

第二种方式是模型内嵌于应用，例如你已经有了一个完整的应用，此时模型时作为应用的一个部分（或功能）发布，这种方式虽然可以做到实时预测，但是模型的更新较为麻烦，涉及到整个应用的部署，以及不同部分之间的兼容性。

第三种方式是以API的形式发布，通过这种方式部署最大的好处是将模型侧和应用侧分离开了，扩展性和维护性都得到了提升，缺点是结构更复杂了，需要专门维护API接口和其通信过程。

第四种方式最为复杂，将模型以类似数据的方式发布到流平台（如kafka），应用侧以消费模型的方式进行模型的调用和预测，这种方式几乎可以做到模型的无缝升级和切换，但代价是需要额外维护一个流平台架构。

综上而言，第三种方式在简单性和灵活性之间取到了不错的平衡点，也是很多时候会选择的一种方式。

再留一个站位坑，之后填补第三种方案搭建API的具体操作。

参考资料

https://towardsdatascience.com/4-machine-learning-system-architectures-e65e33481970

编辑于 2021-10-14 22:51

文章被以下专栏收录

数据分析知识笔记

记录学习中的一些碎片知识

代做工资流水公司天津在职证明查询宁德制作企业对公流水保定查询薪资银行流水中山转账流水办理泰安背调银行流水绵阳工资银行流水办理肇庆做对公银行流水桂林代做工资流水单临沂银行对公流水开具台州办理贷款流水襄阳签证银行流水佛山购房银行流水制作重庆做企业贷流水南通流水代做贵阳查询银行对公流水武汉签证流水价格绵阳背调工资流水代做杭州流水账单代开绵阳工资证明代开湛江打银行流水PS 嘉兴购房银行流水代办台州个人工资流水多少钱阜阳签证工资流水汕头开贷款流水银川签证工资流水开具大连日常消费流水查询上海企业银行流水南宁银行对公流水多少钱大连企业对公流水多少钱佛山薪资流水图片香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

代做工资流水公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化