课程主页: https://www.coursera.org/learn/scala-spark-big-data
在当今的行业中,基于功能性概念对分布在集群上的大数据进行操作已成为一种普遍现象。其中,Apache Spark无疑是当今最流行的选择之一。此课程以‘使用Scala和Spark进行大数据分析’为主题,旨在带领学习者深入了解如何使用Spark这一快速、内存中的分布式框架来处理大数据。在这个课程中,我们将看到数据并行范式如何扩展到分布式场景,并通过Spark的编程模型深入探讨。
课程的第一周将帮助学员熟悉光环境,搭建Scala运行环境,并通过一个简单的作业,了解如何提交作业。接着,我们将讨论分布式计算中的一些重要问题,如延迟和失败。课程的核心概念是通过实践分析真实世界的数据集来巩固学习内容。
第二周,我们将重点讨论一类特殊的弹性分布式数据集(RDD),即配对RDD,以及如何在大数据集上进行关键的操作,比如简化和连接。
第三周,我们将研究数据分区与重分区的性能影响,探讨在不增加网络开销的情况下,如何保持数据的有效传输,进一步优化Spark作业。
最后一周,我们将转向结构化数据,涉及Spark SQL、DataFrames和Datasets等内容。通过学习如何利用结构来优化Spark作业的执行,我们将更好地在RDD与强大的自动优化功能之间架起桥梁。
总的来说,这门课程不仅提供了理论知识,还通过实践操作帮助学员掌握大数据分析的基本技能,是想深入了解Scala和Spark的学习者的理想选择。
课程主页: https://www.coursera.org/learn/scala-spark-big-data