课程主页: https://www.coursera.org/learn/data-driven-astronomy
在当今数据爆炸的时代,科学界面临着前所未有的信息量,天文学正处于这一潮流的最前沿。现代望远镜每次观测都会生成数TB的数据,而为模拟可观察的宇宙所需的计算也让超级计算机达到极限。为了分析这些数据,科学家们需要具备计算思维以解决各种复杂的问题。
Coursera的《数据驱动的天文学》课程正是为了解决这一问题而设计的。该课程将带领学生深入探讨处理大型数据集的挑战,学习如何实施有效的算法,如何利用数据库来管理数据,以及如何通过机器学习从数据中获取信息。
课程内容涵盖多个模块:
1. **思考数据**:介绍计算思维以及大数据如何让简单问题变得复杂,利用射电天文学图像的均值与中值计算作为例子,展示处理大型数据集时可能遇到的问题。
2. **大数据使速度降低**:探讨代码的扩展性问题,并通过交叉匹配天文目录来展示如何改进算法性能。
3. **查询数据**:学习使用SQL语言来管理和查询数据,并结合NASA的系外行星数据库进行习性探索。
4. **管理数据**:介绍如何设置数据库新表,结合Python和SQL的优点,探索恒星在星团中的生命周期。
5. **从数据中学习:回归**:引入机器学习的思想,并运用决策树回归算法来计算遥远星系的红移。
6. **从数据中学习:分类**:探讨决策树分类器的局限性,以及使用随机森林算法将星系图像分类的过程。
总体来说,这门课程不仅提高了对大型天文学数据集的理解,还培养了学生的编程技能和数据分析能力,非常适合有志于科学研究和数据科学领域的学习者。
课程主页: https://www.coursera.org/learn/data-driven-astronomy