课程主页: https://www.coursera.org/learn/machine-learning-capstone
课程概述
在这门机器学习顶点课程中,您将使用多种基于Python的机器学习库,如Pandas、scikit-learn、TensorFlow/Keras,来构建课程推荐系统,分析与课程相关的数据集,计算余弦相似度,创建相似度矩阵,应用KNN、PCA和非负矩阵协同过滤等知识创建推荐系统,并通过训练模型预测课程评分。
课程大纲
顶点项目概述
在这个模块中,您将通过第一则视频了解到推荐系统的基本理念,后续的所有实验室都基于这一概念。您还将获得顶点项目的概述。在最后两个练习中,您将获取IBM Cloud功能代码,并用该代码创建IBM Watson Studio账户。
探索性数据分析与特征工程
在第二模块中,您将进行探索性数据分析,以发现初步的见解,比如数据模式。您还将检查假设,通过汇总统计数据和图示化课程相关数据集(如课程标题、课程类型和课程注册情况)来辅助分析。接下来,您将从课程标题和描述中提取词频向量(称为“词袋”BoW),这是特征工程中一种非常简单但有效的文本数据特征。最后,使用提取的BoW特征向量通过余弦相似度计算课程相似性。
基于无监督学习的推荐系统
在第三模块中,您将使用不同方法构建三个课程推荐系统。在第一个实验室中,您将基于用户个人资料和课程类别矩阵创建课程推荐系统,计算每门课程的兴趣分数并推荐最高分的课程。在第二个实验室中,您将生成课程相似性矩阵以构建推荐系统。在第三个实验室中,您将使用K-means聚类和主成分分析算法,基于小组成员的课程注册历史实现聚类推荐系统。在第四和第五个实验室中,您将使用协同过滤来预测用户的兴趣,基于其他用户相似的偏好进行推荐,第四实验室执行基于KNN的协同过滤,第五实验室使用非负矩阵分解。
基于监督学习的推荐系统
在本模块中,您将使用神经网络预测课程评分。在第一个实验室中,您将训练神经网络来预测课程评分,同时提取用户和课程的潜在特征。在第二实验室中,您将得到课程互动特征向量作为输入数据,使用回归分析计算预测学生将审计或完成课程的评分。第三实验室则使用分类模型来实现与第二实验室相似的功能,通过神经网络提取用户和课程的嵌入特征向量,最终创建一个分类模型来预测学习者是否会审计或完成课程。
分享与展示您的推荐系统
在该模块中,您将接触到Streamlit,并有机会构建一个Streamlit应用来展示您在前面模块中的工作。您还将复习创建成功报告的指南和最佳实践。此外,您也可以参考关于如何创建PowerPoint演示文稿及如何保存PowerPoint为PDF的说明。
最终提交
在最终模块中,您将完成对实践实验室的截图提交,以便您的同学进行审核。当您完成审核后,您将审查一位同学的提交并进行评分。
课程主页: https://www.coursera.org/learn/machine-learning-capstone