课程主页: https://www.coursera.org/learn/supervised-machine-learning-classification
课程概述
在本课程中,您将学习监督机器学习的主要建模类型之一:分类。通过实践,您将掌握如何训练预测模型以对分类结果进行分类,以及如何使用误差指标比较不同模型的优劣。课程中的实践部分将专注于分类的最佳实践,包括训练和测试划分,以及处理类别不平衡的数据集。
课程结束时,您应能够:
- 识别并利用不同的分类模型
- 应用误差度量来评估分类模型的性能
- 在实战中运用最佳实践处理不平衡数据集
课程大纲简介
逻辑回归
逻辑回归是最广泛研究和使用的分类算法之一,特别适用于监管行业和金融环境。尽管更现代的分类器可能会输出更高准确率的模型,逻辑回归由于其高可解释性和参数化的特点,通常作为基线模型。此模块将指导您如何将线性回归示例扩展到逻辑回归,以及如何使用最常见的误差指标比较多个分类器,以选择最适合您业务问题的模型。
K最近邻
K最近邻是一种受欢迎的分类方法,因为其计算简单且易于解释。此模块将带您了解K最近邻的理论,以及通过sklearn构建K最近邻模型的实践演示。
支持向量机
该模块将引导您了解支持向量机如何构建超平面,将数据映射到集中大多数数据点所在的区域。虽然支持向量机广泛用于回归、异常检测和分类,此模块将专注于分类。
决策树
决策树方法是分类任务的常见基线模型,由于其视觉吸引力和高可解释性,深受欢迎。此模块将指导您了解决策树的理论及构建决策树模型的一些实践示例,让您了解这些技术的主要优缺点。
集成模型
集成模型是一种非常流行的技术,可以使模型对异常值更具抵抗力,并提高模型对未来数据的泛化能力。最近,随机梯度提升已成为许多数据科学家的首选模型。在此模块中,您将了解集成模型和流行的基于树的集成。
处理不平衡类别
某些分类模型比其他模型更适合处理异常值、类别低发生率或稀有事件。使分类器更稳健的常用方法涉及分层采样,以重新平衡训练数据。此模块将指导您了解分层采样方法以及更创新的方法,以处理具有不平衡类别的数据集。
课程主页: https://www.coursera.org/learn/supervised-machine-learning-classification