课程主页: https://www.coursera.org/learn/batch-data-pipelines-gcp-br
在当今数据驱动的世界中,掌握数据管道的构建至关重要。《在GCP上构建批量数据管道》是Coursera提供的一门课程,专为那些希望深入了解数据处理和转换过程的学习者设计。该课程使用葡萄牙语授课,非常适合巴西的学习者。
课程概述中明确指出,数据管道通常依赖于三种主要范式:提取-加载(EL)、提取-加载-转换(ELT)和提取-转换-加载(ETL)。每种方法在不同情况下的适用性将通过课程详细讲解。通过初始模块,学生将对课程目标有一个清晰的理解。
课程的核心模块包括:
1. **批量数据管道创建的介绍**:深入探讨数据加载的不同方法,帮助学生了解何时应使用哪种方法。
2. **在Dataproc上运行Spark**:这个模块教授学生如何在Google Cloud的Dataproc上运行Hadoop,如何使用Cloud Storage,以及如何优化Dataproc的作业。
3. **使用Dataflow进行无服务器的数据处理**:学生将学习如何使用Dataflow创建数据处理管道,这对于现代数据工程至关重要。
4. **数据管道管理**:该模块将阐述如何使用Cloud Data Fusion和Cloud Composer来管理数据管道。
5. **课程总结**:课程的最终回顾,帮助学生整合所学内容。
总的来说,这门课程适合希望学习如何在GCP上构建和管理批量数据管道的学生和专业人士。课程结构清晰,内容丰富,是提升数据工程技能的绝佳选择。无论您是数据分析师还是数据科学家,这门课程都提供了必不可少的知识和实践经验。对于追求在数据领域深造的人士,这无疑是一个不可错过的机会。
课程主页: https://www.coursera.org/learn/batch-data-pipelines-gcp-br