Deep Learning Specialization on Coursera

课程主页: https://www.coursera.org/learn/perform-data-science-with-azure-databricks

课程名称: 使用Azure Databricks进行数据科学

在这个课程中,您将学习如何利用Apache Spark的强大功能和运行在Azure Databricks平台上的强大集群,在云端运行数据科学工作负载。本课程是为DP-100: 设计和实施Azure上的数据科学解决方案认证考试而准备的五门课程中的第四门。

课程大纲概述:

1. Azure Databricks介绍: 在这一模块中,您将发现Azure Databricks的能力,以及用于处理大文件的Apache Spark笔记本。您将理解Azure Databricks平台,并识别适合Apache Spark的任务类型,还将介绍Azure Databricks Spark集群和Spark作业的架构。

2. Azure Databricks中的数据处理: Azure Databricks支持日常的数据处理功能,如读取、写入和查询。您将处理来自多个源的大量数据,并学习如何使用DataFrame列类进行列级别的转换,如排序、过滤和聚合。

3. 在Azure Databricks中处理数据: 您将学习如何注册和调用自定义函数(UDF),并使用Delta Lake来创建、追加和更新Apache Spark表中的数据,利用内置的可靠性和优化功能。

4. 开始使用Databricks和机器学习: 您将学习如何使用PySpark的机器学习包构建机器学习工作流的关键组件。

5. 管理机器学习生命周期和模型调整: 本模块将教您如何使用MLflow跟踪机器学习实验,并使用Spark的机器学习库进行超参数调整和模型选择。

6. 训练分布式神经网络并用Azure机器学习服务提供模型: 您将学习如何使用Uber的Horovod框架与Petastorm库在Spark上运行分布式深度学习训练,并如何注册、包装和部署经过训练的模型。

总评: 这个课程为希望在Azure平台上处理数据科学工作负载的人提供了实用的知识和技能,适合希望深入学习数据科学与机器学习的学生和专业人员。

课程主页: https://www.coursera.org/learn/perform-data-science-with-azure-databricks

作者 CourseEye