Deep Learning Specialization on Coursera

课程主页: https://www.coursera.org/learn/big-data-integration-processing

随着大数据时代的到来,数据科学成为了热门职业选择。对于新手来说,如何在大数据领域找到合适的学习资源,往往是一个挑战。今天,我想推荐一门在Coursera上提供的课程——《大数据集成与处理》。这门课程不仅内容丰富,而且非常实用,对于希望进入数据科学领域的人来说是不可或缺的。

课程概述:在课程结束时,你将能够:

  • 从示例数据库和大数据管理系统中检索数据
  • 描述数据管理操作与大数据处理模式之间的联系,以便在大规模分析应用中利用它们
  • 识别何时需要进行数据集成
  • 在Hadoop和Spark平台上执行简单的大数据集成和处理

这门课程适合刚接触数据科学的学习者,完成《大数据入门》课程后参加将更有助于理解。

课程大纲:

欢迎来到大数据集成与处理

这一周你将了解大数据集成与处理的基本概念。此外,你将被引导安装Cloudera虚拟机,下载本课程所需的数据集,并学习如何运行Jupyter服务器。

检索大数据(第一部分)

本模块涵盖数据检索和关系查询的各个方面,并介绍Postgres数据库。

检索大数据(第二部分)

本模块涵盖NoSQL数据的检索、数据聚合和处理数据帧的各个方面。你将学习如何使用Pandas从MongoDB和Aerospike中检索数据。

大数据集成

在本模块中,你将了解数据集成工具,包括Splunk和Datameer,从而获得有关信息集成过程的实用见解。

处理大数据

这一模块将向学习者介绍大数据管道和工作流,及如何使用Apache Spark进行大数据的处理和分析。

使用Spark进行大数据分析

在本模块中,你将深入学习大数据处理,了解Spark核心的内部工作原理,并介绍Spark工具包中的两个关键工具:Spark MLlib和GraphX。

实践学习:应用MongoDB和Spark

在此模块中,你将获得实际的动手经验,将所学知识应用于分析Twitter数据。

总而言之,这门《大数据集成与处理》课程为大数据处理提供了系统的知识架构,是新手学习数据科学的良好起点。无论你是想丰富自己的技能,还是想在数据科学领域发展,这门课程都不容错过。

课程主页: https://www.coursera.org/learn/big-data-integration-processing

作者 CourseEye