课程主页: https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production
在Coursera上,机器学习工程专业化的第二门课程《机器学习数据生命周期在生产中》提供了一个全面的学习平台,帮助学生深入了解数据在机器学习模型中的重要性。本课程重点在于构建数据管道,通过收集、清洗和验证数据集以及评估数据质量,以实现数据的最佳利用。
**课程概述**:
本课程的目标是教授学生如何使用TensorFlow Extended (TFX)库来收集、标记和验证数据,从而使其准备好进入生产环境。同时,学生还将学习如何实施特征工程、数据转换和选择,以从数据中获取最具预测能力的信息。此外,课程还将探讨如何利用数据血统和来源元数据工具,建立数据生命周期,以便跟踪企业数据模式的演变。
**课程大纲**:
– **第一周:数据收集、标记与验证**
本周简要介绍机器学习生产系统的概念,学习如何使用TFX库收集、标记和验证数据,使其适合生产环境。
– **第二周:特征工程、转换与选择**
学习如何使用TFX实施特征工程,处理结构化和非结构化数据,以及解决类别不平衡问题。
– **第三周:数据旅程与存储**
理解数据在生产系统生命周期中的流动,利用机器学习元数据和企业模式快速应对不断变化的数据。
– **第四周(可选):高级标记、增强和数据预处理**
结合标记和未标记数据,以提高机器学习模型的精度,并通过增强数据来丰富训练集。
总体而言,这个课程对想要深入了解如何在生产环境中管理与机器学习相关数据的学习者来说,是一个不可或缺的资源。课程设计结构清晰,内容实用,能有效提升学员的实际操作能力。
课程主页: https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production