课程主页: https://www.coursera.org/learn/data-manipulation
课程名称:大规模数据操作:系统与算法
课程概述:数据分析已经取代数据获取,成为基于证据的决策制定的瓶颈,数据分析的需求如潮水般涌来。要从大型、异构及噪声数据集中提取知识,不仅需要强大的计算资源,还需要有效利用这些资源的编程抽象。过去十年中出现的抽象,结合了并行数据库、分布式系统以及编程语言等理念,构建了新一类可扩展的数据分析平台。
课程大纲:
- 数据科学背景与概念:理解数据科学相关术语和常见原则,了解数据科学项目的结构及应对新方法论。认识到这一新兴领域的存在原因及其与其他领域的关系,学习数据科学项目的案例以及如何进行有效的项目处理。
- 关系数据库与关系代数:关系数据库是大规模数据管理的核心,具有广泛的分析能力,是学习大规模数据处理不可或缺的编程模型。
- MapReduce与并行数据流编程:MapReduce编程模型为大规模数据集的并行操作提供了简单的抽象,是现代大数据平台的重要概念。
- NoSQL:系统与概念:NoSQL系统主要关注规模而非分析,尽管对实践中的数据科学家而言可能相关性不大,但其在许多大数据平台架构中仍占有重要地位,因此数据科学家须了解其优缺点。
- 图分析:图结构数据已在数据科学中变得越来越普遍,学习如何从图数据中提取信息的常用算法,并了解如何进行扩展。
总结:该课程适合愿意深入了解如何在大规模数据环境中高效进行数据分析的学习者。通过系统的概念、模型和实例分析,参与者将能掌握必要的技能,以应对现代数据科学所带来的挑战。
课程主页: https://www.coursera.org/learn/data-manipulation