课程主页: https://www.coursera.org/learn/data-driven-astronomy
课程概述
科学正经历一场数据爆炸,而天文学走在了前列。现代望远镜每次观测都会产生数太字节的数据,而模拟可观测宇宙所需的计算又将超级计算机推向极限。为了解析这些数据,科学家们需要具备计算思维来解决问题。
在这门课程中,你将探讨处理大数据集所面临的挑战:如何实现有效的算法,如何使用数据库来管理数据,以及如何从中学习。
课程大纲
数据思维
本模块介绍计算思维的概念,以及大数据如何使简单问题变得复杂。我们通过计算一组射电天文学图像的中位数和均值的例子,展示在处理大数据集时可能遇到的一些问题。
大数据使过程变慢
在这一模块中,我们探讨了代码的扩展性。某些算法在数据集增大时表现良好,而其他的则会变得极其缓慢。我们通过交叉匹配天文学目录的实例,演示了可以实施哪些改进。
查询数据
大多数大型天文学项目使用数据库来管理数据。在这个模块中,我们引入了SQL——最常用的数据库查询语言。我们运用SQL查询NASA的外行星数据库,调查其他太阳系的行星宜居性。
数据管理
这一模块介绍了设置数据库的基本原理。我们学习如何设置新表,并结合Python与SQL来发挥两者的最佳效果。我们使用这些工具来探索恒星群中恒星的生命周期。
从数据中学习:回归
这一模块介绍了机器学习的概念。我们学习运行机器学习实验的标准方法,并应用于计算远方星系的红移,使用决策树进行回归。
从数据中学习:分类
在最后一个模块中,我们探索了决策树分类器的局限性。然后,我们研究了使用随机森林算法将星系图像分类为不同类型的集成分类器。
推荐理由
这个课程以独特的方式揭示了如何利用大数据的潜力,并为学习数据科学提供了坚实的基础。通过实践案例,你不仅可以获得理论知识,还能通过实际操作来增强自己的技能。此外,该课程对于那些希望在科学界、尤其是在天文学领域工作的学员来说,绝对是一个不可多得的机会。
课程主页: https://www.coursera.org/learn/data-driven-astronomy