课程主页: https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production
课程概述
在Coursera的“机器学习工程专业化”第二课程中,我们将深入了解如何构建数据管道,包括数据的收集、清洗和验证。这门课程名为《机器学习数据生命周期在生产中》,涵盖了如何利用TensorFlow Extended来实现特征工程、数据转换和选择,从而最大程度地提高数据的预测能力。此外,课程还将帮助我们建立数据生命周期,通过利用数据血缘和来源元数据工具,跟踪数据的演变和企业数据架构。
课程大纲
第1周:收集、标记和验证数据
这一周,我们将快速介绍机器学习生产系统的基本概念。具体而言,您将学习如何利用TensorFlow Extended (TFX)库来收集、标记和验证数据,使其适合生产环境。
第2周:特征工程、转换和选择
本周的重点是通过TensorFlow Extended实现特征工程、数据转换和选择,编码结构化和非结构化数据类型,并解决类别不平衡问题。
第3周:数据旅程和数据存储
您将了解数据在生产系统生命周期中的旅程,并利用机器学习元数据和企业架构来应对快速变化的数据。
第4周(可选):高级标记、增强和数据预处理
结合已标记和未标记的数据,以提高机器学习模型的准确性,并增强数据以丰富训练集。
课程评估
这门课程不可谓不全面,不仅涵盖了机器学习生产中最重要的各个方面,同时也注重实践应用。通过真实案例和项目,学习者将能更好地将所学知识应用于实际工作中。特别是使用TensorFlow Extended进行特征工程的部分,帮助我们理解数据在机器学习中的重要性,并且极大地提升了模型性能。
推荐理由
如果您希望深入了解机器学习数据的整个生命周期,并提升您的数据处理能力,这门课程绝对值得推荐。透过课程学习,您将掌握如何有效地处理和利用数据,以提升模型的准确性和可靠性。
课程主页: https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production