课程主页: https://www.coursera.org/learn/developing-pipelines-on-dataflow
在Coursera推出的《无服务器数据处理与Dataflow:开发管道》课程中,学员将深入学习如何使用Beam SDK开发数据处理管道。这是该系列课程的第二部分,内容涵盖了从基础概念到高级应用的各种主题。
首先,课程将回顾Apache Beam的基本概念,帮助学员理解如何编写自己的数据处理管道。接下来,将介绍如何使用窗口、时间戳和触发器处理流数据,这些都是处理流式数据的关键技术。
在了解了流数据处理的基础后,课程将讨论数据管道中的数据源和数据接收器,包括Google Cloud Dataflow中多种常见的IO类型,如Text IO、FileIO以及BigQuery IO等。此外,还将介绍如何使用模式(Schemas)来表达结构化数据,以及如何利用状态和计时器API进行状态转化,这些都是高级数据处理的重要内容。
除了技术知识,课程还会分享一些最佳实践,以最大化管道性能,并引入Dataflow SQL和数据框(DataFrames)两种新的API,帮助学员用SQL语法和数据框的形式来表示商业逻辑。
最后,课程会使用Beam Notebooks为Python开发者提供一个友好的环境,让他们能在Jupyter Notebook中迭代地开发管道。整体而言,该课程内容丰富,非常适合希望提升数据处理能力的开发者加入学习。
课程主页: https://www.coursera.org/learn/developing-pipelines-on-dataflow