课程主页: https://www.coursera.org/learn/tidyverse-importing-data
课程概述:在数据科学的各个项目中,将数据导入统计分析系统可能是最具挑战性的部分。数据必须被导入并协调成一个一致的格式,才能获得任何见解。选修《Tidyverse中的数据导入》课程,你将学习如何从常用格式将数据导入R,并协调来自不同来源的不同类型的数据集。这个课程非常适合在不同部门使用不同系统和存储格式进行数据收集的组织。
课程大纲:
1. R中的数据导入(和导出)
传统R数据框的现代替代品Tibble是一种基本的数据类型,专为存储表格数据设计。本模块涉及以Excel、CSV、TSV等格式存储的表格数据的导入和导出。
2. JSON、XML和数据库
数据可以以非表格格式(如JSON和XML)存在,尤其是结构不固定的数据。我们将学习如何读取这些数据格式以及SQLite等关系数据库格式。
3. 网络抓取和API
从各种网络来源导入数据,有助于构建需要定期更新的分析。rvest和httr包可以帮助连接到网站、网络API和其他在线数据源。
4. 外部格式、图像和Google Drive
数据科学项目中的协作往往涉及读取其他软件产生的数据输出。本模块涵盖读取这些外部格式和其他数据的包。
5. 案例研究
通过案例研究示范如何导入数据。当你在案例研究中完成步骤时,可以选择使用你自己的RStudio或Coursera提供的实验室空间。
6. 项目:将数据导入R
这个项目将让你有机会从多个来源读取数据并进行一些简单的操作。这是课程的实用部分,将理论与实践结合,帮助学生巩固所学内容。
课程评价:
《Tidyverse中的数据导入》是一门极具实用性的课程,适合希望在R中高效导入和处理数据的学习者。课程内容涵盖面广,案例研究生动,并提供实用工具,使参与者能够自信地处理数据导入问题。无论是工作中的项目需求还是个人学习,这门课程都能够帮助你提高数据分析的能力。
总而言之,这门课程不仅适合初学者,也是对经验者的极好补充,帮助大家提升数据科学项目中的数据导入效率。
课程主页: https://www.coursera.org/learn/tidyverse-importing-data