课程主页: https://www.coursera.org/learn/big-data-integration-processing
在如今数据驱动的时代,掌握大数据技术已成为数据科学领域的关键技能。《大数据集成与处理》是Coursera平台上提供的一门课程,旨在帮助新手学习如何处理和集成大数据。就读完这门课程后,你将能够从示例数据库和大数据管理系统中检索数据,并理解数据管理操作与大数据处理模式之间的关系。本课程特别适合对数据科学感兴趣的初学者,完成《大数据基础》课程后便可入学。
课程的主要内容包括:
1. **大数据的检索**:涵盖数据检索和关系查询的各个方面,介绍Postgres数据库;
2. **NoSQL数据的检索**:了解与NoSQL数据相关的检索、数据聚合以及如何使用Pandas从MongoDB和Aerospike中检索数据;
3. **大数据集成**:学习数据集成工具,包括Splunk和Datameer,以及信息集成过程的实际运用;
4. **大数据处理**:了解大数据管道和工作流,并使用Apache Spark进行数据处理与分析;
5. **利用Spark进行大数据分析**:深入了解Spark Core的内部工作原理,学习Spark工具包中的关键工具Spark MLlib和GraphX;
6. **实践操作:运用MongoDB与Spark**:通过实际操作分析Twitter数据,获得实践经验。
总的来说,这门课程以易于理解的方式引导学生,从理论到实践,帮助其掌握大数据处理的核心技能,是希望进入数据科学领域人员学习的良好起点。
课程主页: https://www.coursera.org/learn/big-data-integration-processing