课程主页: https://www.coursera.org/learn/big-data-integration-processing
课程概述
在这个名为《大数据集成与处理》的在线课程中,学习者将能够掌握从示例数据库和大数据管理系统中检索数据的能力。此外,本课程将介绍数据管理操作与大数据处理模式之间的关系,以便在大规模分析应用中有效利用它们。完成本课程后,学习者将能够识别何时需要数据集成,并在Hadoop和Spark平台上执行简单的大数据集成与处理。
课程大纲
本课程是大数据专业化的第三门课程,围绕大数据集成与处理的基本概念进行专门讲解。课程内容包括:
- 欢迎来到大数据集成与处理:介绍基础概念,指导安装Cloudera虚拟机及运行Jupyter服务器。
- 大数据检索(第一部分):涵盖数据检索的各种方面以及关系查询,并介绍Postgres数据库。
- 大数据检索(第二部分):关于NoSQL数据的数据检索及聚合,使用Pandas从MongoDB和Aerospike中提取数据。
- 大数据集成:介绍数据集成工具如Splunk和Datameer,并提供关于信息集成过程的实用见解。
- 大数据处理:引导学习者理解大数据管道与工作流程,并使用Apache Spark进行大数据处理和分析。
- 利用Spark进行大数据分析:深入学习Spark核心的工作原理,介绍Spark工具包中的关键工具:Spark MLlib与GraphX。
- 实践操作:应用MongoDB与Spark:通过分析Twitter数据,获得实际的操作经验。
课程评价
对于数据科学新手来说,这是一门极具价值的课程。课程从基础到深入的逐步引导使初学者能够有效理解和应用大数据的集成与处理方法。特别是通过实践模块,学习者有机会将所学知识应用于实际的数据集分析,增强了学习的实际效果和趣味性。无论是想要建立大数据基础知识还是希望提升技术能力的学习者,都能在此课程中获得有益的收获。
课程主页: https://www.coursera.org/learn/big-data-integration-processing