卡内基梅隆大学(CMU)在2025年春季开设的一门公开课——“Machine Learning in Production (17-445/17-645/17-745) / AI Engineering (11-695)”。
这门课程深入讲解了从模型到生产级系统的完整生命周期,涵盖了如何设计可容错且可扩展的系统、如何进行可靠部署和测试、如何处理数据质量和性能监控,以及如何确保系统的安全性、公平性和可解释性等关键议题。
课程网址:mlip-cmu.github.io/s2025/
对应的教材:mlip-cmu.github.io/book/index.html
本课程涵盖以下主题:
⭐如何针对模型可能做出的错误预测进行设计? 尽管可能存在错误,如何确保安全性和保障性?如何设计用户界面和整个系统以在现实世界中运行?
⭐如何在生产中可靠地部署和更新模型? 如何测试整个机器学习流水线? MLOps 工具如何帮助自动化和扩展部署流程?如何在生产中进行实验(A/B 测试、金丝雀发布)?如何在生产中检测数据质量问题、概念漂移和反馈回路?
⭐如何扩展生产机器学习系统? 如何设计一个系统来处理大量的训练数据、遥测数据和用户请求?我们应该使用流处理、批处理、lambda 架构还是数据湖?
⭐如何测试和调试生产机器学习系统? 如何在生产中评估模型预测的质量?如何测试支持机器学习的整个系统,而不仅仅是模型?我们可以从软件测试、自动化测试用例生成、模拟和持续集成中学到哪些经验教训来测试生产机器学习?
⭐除了模型的预测准确性之外,哪些质量也很重要? 如何识别和衡量重要的质量要求,包括学习和推理延迟、运营成本、可扩展性、可解释性、公平性、隐私、鲁棒性和安全性?应用程序是否需要能够离线运行,以及我们需要多久更新一次模型?我们如何在业务生产环境中识别支持机器学习的产品中的重要内容?我们如何解决冲突和权衡?
⭐如何在跨学科团队中有效工作? 我们如何将数据科学家、软件工程师、UI 设计师、经理、领域专家、大数据专家、运营商、法律顾问和其他角色聚集在一起,并建立共同的理解和团队文化?
⭐应用实例: 包括自动音频转录、在网络摄像头上分布式检测失踪儿童以及在增强现实中进行即时翻译、癌症检测、跌倒检测、医学诊断以及其他智能医疗和健康服务、Powerpoint 中的自动幻灯片布局、半自动大学录取、库存管理、智能播放列表和电影推荐、广告欺诈检测、送货机器人和智能驾驶功能等等。