课程主页: https://www.coursera.org/learn/etl-and-data-pipelines-shell-airflow-kafka
课程简介
在现代数据处理领域,数据管理和分析的能力已经成为企业成功的关键。Coursera上的课程《ETL and Data Pipelines with Shell, Airflow and Kafka》提供了一种深入了解ETL(提取、转换和加载)和ELT(提取、加载和转换)两种方法的机会。
该课程覆盖了如何将原始数据转化为可用于分析的数据,讲解数据仓库、数据湖、以及如何通过Apache Airflow和Kafka构建高效的数据管道。
课程大纲
数据处理技术
在此模块中,你将学习ETL和ELT的关键概念,掌握它们的主要差异及其在大数据支持和快速洞察方面的应用。我们会探讨从数据提取到数据加载的所有内容,包括高级技术,如数据库查询和API的使用。
ETL和数据管道:工具与技术
掌握如何使用Bash脚本创建ETL管道以及调度和触发数据管道的过程。你会学习如何监控和维护这些管道,以及如何提升其性能。
使用Airflow构建数据管道
通过Apache Airflow来管理数据管道的优势在于其可维护性和可测试性。你将学习如何使用Airflow的UI来可视化你的数据管道,以及如何定义和记录DAG。
使用Kafka构建流处理管道
你将学习Kafka的核心组件,并深入了解其在事件流处理中的应用。这是掌握现代数据流概念的关键模块。
最终作业
课程的最后部分将让你运用所学知识,完成创建ETL数据管道和流处理数据管道的实际作业。这是将理论知识转化为实践能力的重要一步。
推荐理由
这个课程适合任何希望进入数据工程领域的学员。无论你是数据科学的初学者、还是想提升自身技能的专业人士,这门课程都能为你提供价值深厚的知识和实用的技能。通过使用现实世界中的示例,你将更加轻松地理解如何在工作中应用这些技术。
你将在课程结束时拥有实施ETL和流处理的完整工具,能够在未来的项目中游刃有余地应用。
课程主页: https://www.coursera.org/learn/etl-and-data-pipelines-shell-airflow-kafka