Deep Learning Specialization on Coursera

课程主页: https://www.udemy.com/course/real-world-spark-2-interactive-python-pyspark-core/

在数据科学和大数据分析领域,Apache Spark无疑是一个强大的工具,而Udemy上的课程《真实世界Spark 2 – 互动Python pyspark核心》则为学习者提供了一个深入了解Spark的绝佳机会。此课程是建立在另一个名为《真实世界Vagrant – 构建Apache Spark开发环境!》的基础上,因此,如果你还没有安装Spark环境,可以先学习该课程。

### 课程概述
该课程通过Python的Spark交互式Shell为我们提供了学习API的简单方式,同时也为我们提供了一个强大的工具以交互方式分析数据。你只需在虚拟机内的bash终端中运行相应命令即可开始使用Spark。

在Spark中,主要的抽象是被称为弹性分布式数据集(RDD)。RDD可以通过集合、Hadoop输入格式(例如HDFS文件)创建,或者通过转换其他RDD来生成。在创建RDD、执行转换和操作时,你将会在Web UI的监控视图中工作,这里显示了应用程序的有用信息,如调度器阶段和任务的列表、RDD大小和内存使用情况的摘要、环境信息以及正在运行的执行器的信息。

### 为什么选择Apache Spark?
Apache Spark能够比Hadoop MapReduce快100倍(内存中)或者10倍(磁盘上)执行程序。它拥有先进的DAG执行引擎,支持循环数据流和内存计算。同时,Spark提供了80多个高阶操作符,使得构建并行应用变得轻松。此外,你可以从Scala、Python和R Shell中进行互动使用。Spark还能够将SQL、流处理和复杂分析结合在一起。实际上,Spark作为一个强大的库栈,包括SQL和DataFrames、用于机器学习的MLlib、图计算的GraphX以及流处理的Spark Streaming等库,可以在同一应用程序中无缝结合使用。

### 总结
总之,《真实世界Spark 2 – 互动Python pyspark核心》是一门极具价值的课程,非常适合希望深入学习Apache Spark的学生和数据科学家。无论你是刚刚开始接触大数据分析,还是希望提升现有技能,这门课程都能为你提供所需的知识和实践经验。

强烈推荐大家加入这门课程,开启你的Spark之旅!

课程主页: https://www.udemy.com/course/real-world-spark-2-interactive-python-pyspark-core/

作者 CourseEye