课程主页: https://www.coursera.org/learn/microsoft-azure-databricks-for-data-engineering
课程概述
在这个课程中,你将学习如何利用Apache Spark的强大功能和在Azure Databricks平台上运行的高效集群来处理大数据工程工作负载。
课程帮助你发现Azure Databricks平台的各种能力,以及使用Apache Spark Notebook处理大型文件。在学习过程中,你将深入了解Azure Databricks平台,并识别适合使用Apache Spark的任务类型。此外,课程还将介绍Azure Databricks Spark集群的架构。
课程大纲
Azure Databricks简介
描述Azure Databricks和Apache Spark Notebook处理大文件的能力。识别适合Apache Spark的任务和架构。
在Azure Databricks中读取和写入数据
学习日常数据处理的功能,比如读取、写入和查询。
Azure Databricks中的数据处理
通过定义DataFrames来处理数据,执行数据转换,展示转换后的数据。此外,还会介绍不同的操作,懒惰与急切的评估等概念。
在Azure Databricks中管理DataFrames
使用DataFrame列类进行列级别的转换,比如排序、过滤和聚合。
平台架构、安全性和数据保护
介绍Azure Databricks的平台架构及其安全措施,了解如何使用Azure Key Vault存储机密信息。
Delta Lake
学习如何使用Delta Lake创建、追加和更新Apache Spark表的数据。
分析流数据和创建生产工作负载
使用Azure Databricks处理流数据,并与Azure Data Factory集成。
创建数据架构
将Databricks笔记本放入版本控制,并构建部署流水线进行管理。
数据工程实践考试
为微软认证的Azure数据工程师助理考试做好准备。
课程评价
本课程内容详实,适合希望深入了解Azure Databricks及Apache Spark在数据工程领域应用的学习者。通过系统的讲解和实践操作,课程使学生能够在真实环境中应用学到的知识,特别适合那些希望在云计算领域发展的专业人员。
课程主页: https://www.coursera.org/learn/microsoft-azure-databricks-for-data-engineering