分类目录归档:统计学

Deep Learning Specialization on Coursera

李航老师《统计学习方法(第二版)》出版及统计学习方法第一版PPT课件下载

李航老师《统计学习方法(第二版)》出版了,以下是相关介绍。

内 容 简 介

统计学习方法即机器学习方法,是计算机及其应用领域的一门重要学科。
本书分为监督学 习和无监督学习两篇,全面系统地介绍了统计学习的主要方法。
包括感知机、k 近邻法、朴素贝 叶斯法、决策树、逻辑斯谛回归与最大熵模型、
支持向量机、提升方法、EM 算法、隐马尔可夫 模型和条件随机场,以及聚类方法、
奇异值分解、主成分分析、潜在语义分析、概率潜在语义分 析、马尔可夫链蒙特卡罗法、
潜在狄利克雷分配和 PageRank 算法等。除有关统计学习、监督学 习和无监督学习的概
论和总结的四章外,每章介绍一种方法。叙述力求从具体问题或实例入手, 由浅入深,
阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。
为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,
列出了主要参 考文献。 本书是统计机器学习及相关课程的教学参考书,
适用于高等院校文本数据挖掘、信
息检索及自然语言处理等专业的大学生、
研究生,也可供从事计算机应用相关专业的研发人员 参考。

第二版序言

《统计学习方法》第一版于2012年出版,讲述了统计机器学习方法,主要是一些常用的监督学习方法.
第二版增加了一些常用的无监督学习方法,由此本书涵盖了传统统计机器学习方法的主要内容.
在撰写《统计学习方法》伊始,对全书内容做了初步规划.第一版出版之后,即着手无监督学习方法
的写作.由于写作是在业余时间进行,常常被主要工作打断,历经六年时间才使这部分工作得以完成.
犹未能加入深度学习和强化学习等重要内容,希望今后能够增补,完成整本书的写作计划.
《统计学习方法》的出版正值大数据和人工智能的热潮,生逢其时,截至2018年4月本书共印刷21次,
133,000册,得到了广大读者的欢迎和支持.有许多读者指出本书对学习和掌握机器学习技术有极大的
帮助.也有许多读者通过电子邮件、微博等方式指出书中的错误,提出改进的建议和意见.一些高校
将本书作为机器学习课程的教材或参考书.有的同学在网上发表了读书笔记.有的同学将本书介绍的
方法在计算机上实现.清华大学深圳研究生院袁春老师精心制作了第一版十二章的课件,在网上公布,
为大家提供教学之便.众多老师、同学、读者的支持和鼓励,让作者深受感动和鼓舞.在这里向所有
的老师、同学、读者致以诚挚的谢意!
能为中国的计算机科学、人工智能领域做出一点微薄的贡献,感到由衷的欣慰,同时也感受到作为知
识转播者的重大责任,让作者决意把本书写好.也希望大家今后不吝指教,多提宝贵意见,以帮助继
续提高本书的质量.在写作中作者也深切体会到教学相长的道理,经常发现自己对基础知识的掌握不
够扎实,整个过程帮助自己对相关知识进行了深入的学习,受益匪浅.
本书是一部机器学习的基本读物,要求读者拥有高等数学、线性代数和概率统计的基础知识.书中主
要讲述统计机器学习的方法,力求系统全面又简明扼要地阐述这些方法的理论、算法和应用,使读者
能对这些机器学习的基本技术有很好的掌握.针对每个方法,详细介绍其基本原理,基础理论,实际
算法,通常给出细致数学推导和具体实例,帮助读者理解,也便于日后复习.
第二版增加的无监督学习方法的初稿,王泉、陈嘉怡、柴琛林、赵程绮等帮助做了认真细致的校阅,
提出了许多宝贵意见,在此谨对他们表示衷心的感谢.清华大学出版社的薛慧编辑一直给予非常专业
的指导和帮助,在此也对她表示衷心的感谢.
由于作者水平有限,本书一定存在不少错误,恳请各位专家、老师、同学、读者批评指正.

李 航
2018年4月23日

目录

第一篇 监督学习
    
第二篇 无监督学习
第13章 无监督学习概论        
13.1.1 无监督学习基本原理
13.1.2 基本问题
13.1.3 机器学习三要素
13.1.4 无监督学习方法

第14章 聚类方法
14.1 聚类的基本概念
14.1.1 相似度或距离
14.1.2 类或簇
14.1.3 类与类之间的距离
14.2 层次聚类
14.3 k均值聚类
14.3.1 模型
14.3.2 策略
14.3.3 算法
14.3.4 算法特点
本章概要
继续阅读
习题
参考文献             

第15章 奇异值分解
15.1 奇异值分解的定义与性质
15.1.1 定义与定理
15.1.2 紧奇异值分解与截断奇异值分解
15.1.3 几何解释
15.1.4 主要性质
15.2 奇异值分解的计算
15.3 奇异值分解与矩阵近似
15.3.1 弗罗贝尼乌斯范数
15.3.2 矩阵的最优近似
15.3.3 矩阵的外积展开式
本章概要
继续阅读
习题
参考文献

第16章 主成分分析
16.1 总体主成分分析
16.1.1 基本想法
16.1.2 定义和导出
16.1.3 主要性质
16.1.4 主成分的个数
16.1.5 规范化变量的总体主成分
16.2 样本主成分分析
16.2.1 样本主成分的定义和性质
16.2.2 相关矩阵的特征值分解算法
16.2.3 数据局正的奇异值分解算法
本章概要
继续阅读
习题
参考文献

第17章 潜在语义分析
17.1 单词向量空间与话题向量空间
17.1.1 单词向量空间
17.1.2 话题向量空间
17.2 潜在语义分析算法
17.2.1 矩阵奇异值分解算法
17.2.2 例子
17.3 非负矩阵分解算法
17.3.1 非负矩阵分解
17.3.2 潜在语义分析模型
17.3.3 非负矩阵分解的形式化
17.3.4 算法
本章概要
继续阅读
习题
参考文献

第18章 概率潜在语义分析
18.1 概率潜在语义分析模型
18.1.1 基本想法
18.1.2 生成模型
18.1.3 共现模型
18.1.4 模型性质
18.2 概率潜在语义分析的算法
本章概要
继续阅读
习题
参考文献

第19章 马尔可夫链蒙特卡罗法
19.1 蒙特卡罗法
19.1.1 随机抽样
19.1.2 数学期望估计
19.1.3 积分计算
19.2 马尔可夫链
19.2.1 基本定义
19.2.2 离散状态马尔可夫链
19.2.3 连续状态马尔可夫链
19.2.4 马尔可夫链的性质
19.3 马尔可夫链蒙特卡罗法
19.3.1 基本想法
19.3.2 基本步骤
19.3.3 马尔可夫链蒙特卡罗法与统计学习
19.4 Metropolis-Hastings算法
19.4.1 基本原理
19.4.2 Metropolis-Hastings算法
19.4.3 单分量Metropolis-Hastings算法
19.5 吉布斯抽样
19.5.1 基本原理
19.5.2 吉布斯抽样算法
19.5.3 抽样计算
本章概要
继续阅读
习题
参考文献

第20章 潜在狄利克雷分配
20.1 狄利克雷分布
20.1.1 分布定义
20.1.2 共轭先验
20.2 潜在狄利克雷分配模型
20.2.1 基本想法
20.2.2 模型定义
20.2.3 概率图模型
20.2.4 随机变量序列的可交换性
20.2.5 概率公式
20.3 LDA的吉布斯抽样算法
20.3.1 基本想法
20.3.2 算法的主要部分
20.3.3 算法的后处理
20.3.4 算法
20.4 LDA的变分EM算法
20.4.1 变分推理
20.4.2 变分EM算法
20.4.3 算法推导
20.4.4 算法总结
本章概要
继续阅读
习题
参考文献

第21章 PageRank算法
21.1 PageRank的定义
21.1.1 基本想法
21.1.2 有向图和随机游走模型
21.1.3 PageRank的基本定义
21.1.4 PageRank的一般定义
21.2 PageRank的计算
21.2.1 迭代算法
21.2.2 幂法
21.3.3 代数算法
本章概要
继续阅读
习题
参考文献

第22章 无监督学习方法总结
22.1 无监督学习方法的关系和特点
22.1.1 各种方法之间的关系
22.1.2 无监督学习方法
22.1.3 基础及其学习方法
22.2 话题模型之间的关系和特点
参考文献

附录A 梯度下降法
附录B 牛顿法和拟牛顿法
附录C 拉格朗日对偶性
附录D 矩阵的基本子空间
附录E KL散度的定义和狄利克雷分布的性质
                  
索引

有同学将第一版相关的机器学习算法用python实现了一遍,可以参考:

https://github.com/WenDesi/lihang_book_algorithm (致力于将李航博士《统计学习方法》一书中所有算法实现一遍)

最后附上清华大学深圳研究生院袁春老师精心制作了第一版十二章的课件,关注公众号AINLP,回复”tongjixuexi”获取:

统计学公开课大盘点

统计学博大精深,用途广泛,是一门非常重要的基础课程。在接触了一些统计学公开课后,发现网络上还有很多的免费的在线统计学课程可以用来学习和复习相关的知识点,只是缺乏一些整理和汇总。之前课程图谱微博做了很多课程的推荐,但是发现微博上信息散落的很凌乱,不系统,所以决定在这里做一些系统的课程资源整理和汇总。第一期就选定统计学,同时也欢迎大家补充相关的没有覆盖到的课程资源,供更多的同学学习和参考。

1、Udacity的“Introduction to Statistics(统计学导论课程)

入门级课程,强烈推荐。课程对学生的数学基础要求很小,可以认为是零基础学习统计学的好课程,授课老师是斯坦福教授Sebastian Thrun,他是Udacity的创始人之一,同时作为Google Fellow, 他创办了Google X实验室,主导了Google无人驾驶汽车以及Google眼镜等革命性产品。课程本身深入浅出的介绍了统计学的大多数基本概念,只要认真回答每节课的小问题,同时认真完成homework, 包括用python写个小的统计程序,应该会大有收获。

MOOC学霸 @wzyer 对这门课程的评价是:课程本身内容很不错,涵盖了统计基本的知识点。不过也许是Udacity风格的问题吧,听完之后感觉有些不够系统。也许这门课主要面向的是无基础的人吧。

Udacity官方也提供了这门课程的视频下载链接:https://www.udacity.com/wiki/st101/downloads

另外Udacity也在Youku上建立了官方频道,这门课程对应一个专辑:Udacity公开课:ST101统计学入门 ,貌似视频不全,但是有翻译。

2、可汗学院的“Probability and Statistics(概率与统计)

入门级课程,强烈推荐。可汗老师亲自在白板上边写边讲,通俗易懂,另外一个就是它的配套练习系统了,没有一定的正确率是不让你通过的。网易公开课虽然有这门课的视频,但是缺少了练习,好像就丢了魂。虽然以前在学校里学过概率和统计,特别是后者,感觉很多基本概念没有在脑子中留下印记。这门课刚好补回了很多基本的概念。

网易公开课上将这门课程分为两个课程“概率”和“统计学”提供在线观看和视频下载,并且视频有相应的翻译,如果能再在可汗学院官方网站上做一下练习,效果会很不错:

2.1 可汗学院公开课:概率
可汗学院的概率课程通过各种生动的例子,由最基本的概率问题讲起,逐步深入讲解了概率中的一系列概念及问题,主要内容包括独立事件,相依事件,随机变量,排列,组合,概率密度函数,二项分布,期望值,大数定律以及大量的实例

2.2 可汗学院公开课:统计学
这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。

3、edX的伯克利统计学课程三部曲-描述统计学,概率,推荐推断

3.1 伯克利大学统计学导论-描述统计学:Introduction to Statistics: Descriptive Statistics

蒋勇NLP同学的评价: 这门课是我拿到第一张MOOC的证书,berkeley的这位女老师把统计学导论课程分为三部分,这个是第一部分,内容很简单,通过很容易,主要就是介绍统计概率最基本的知识。edx的MOOC入门课,推荐!

课程图谱花了一些时间体验了这门课程,总得评价是:

统计学博大精深,而这门伯克利统计学的入门课程可以归结为5个字:功夫在课外,或者说功夫还是要花在伯克利原生的统计学课程上。edX上的这门描述统计学课程基本上只是做了一些概括介绍,所以总共只有五周课程,而且每周课程只有2-3个视频,开始我还比较诧异,后来做练习时发现不是这回事,因为课后的练习或者作业多指向伯克利自己的统计学课程,而这门课程被 P.B. Stark教授做成了一个在线的统计学课程项目:SticiGui, 而这个在线课程上的视频,都是其在伯克利大学的统计学授课视频,长度比这里长多了。很多时候需要花时间学习这些课程再回头来做edX的作业。

edX上的这门课程的老师是Ani Adhikari ,标准的英式英语口音,貌似是P.B. Stark教授的博士生或者同事,介绍的内容很简单,主要包括直方图,均值和中位数,标准差,标准正态分布和z值,回归问题等等,视频多是做个引导,如果之前没有相关的统计学知识,需要去SticiGui上自学一下。这一点上我觉得课程做得不太好,没有在edX上形成一个闭环,虽然SticiGui非常值得推荐,但是课程的体验大打折扣。相对来说,Kehan学院的概率与统计课程以及Udacity上的统计学导论课程的体验就非常好了。

3.2 伯克利大学统计学导论-概率:Introduction to Statistics: Probability

蒋勇NLP同学评价:统计学导论的第二门课程,看课程名字就知道主要讲概率,如果说统计学导论1内容是高中或者大一上课程,这门课应该是大一下课程吧,课程内容比国内的数理统计课程要多,quiz有尝试次数限制。不得不说edx的UI做的真心赞,就是deadline不好把握,一不小心时间就过了。。。

3.3 伯克利大学统计学导论-统计推断: Introduction to Statistics: Inference

该课程将在7月份开课,值得期待和关注。

4、加州伯克利大学统计学系的在线统计学课程项目:SticiGui

“Statistics means never having to say you’re certain”

这个课程项目包括文本课程、伯克利大学课堂视频以及仿真模拟等,而且覆盖的内容广泛,项目的代码和文档可以在github上找到:SticiGui GitHub。可以认为这门课程是上面edX统计学导论三部曲的进阶或高阶课程,课程视频来源于 P.B. Stark教授的授课视频,并且以伯克利统计学的赫赫声名,相信完成这门课程后收获会非常之大。

5、国外一个统计学在线学习网站:Online Statistics Education: An Interactive Multimedia Course of Study

这是在学习可汗学院的概率统计课程时老师提到的网站,体验了一下,非常不错,包括文本(web, pdf和mobile epub版本等等),视频,问答和模拟仿真等,值得收藏。

6、斯坦福大学OpenEdx平台上的医学统计学公开课:Statistics in Medicine

@蒋勇NLP同学6月12号推荐:斯坦福的Statistics in Medicine今天开课,内容主要是统计分析的一些知识。包括:统计学概述、概论论、统计推断、p值检验、回归分析等,跟berkeley的三门统计学导论相比,侧重点应该不一样

7、加州大学伯克利分校:公共健康-数据统计分析

与上面这门医学统计学课程相似的是,在网易公开课上有一门加州伯克利大学的“公共健康-数据统计分析课程”,虽然面向的是医学和健康领域,但是主要讲的还是统计学的基础方法。值得称道的是,网易公开课上提供了部分课程的翻译和视频下载:

本课程涵盖了数据统计分析的基础内容,共四十二节课。Nicholas P. JEWELL教授主要采取ppt授课方式,让同学们更容易看到合记住知识点。并且复习起来非常方便。

8、Coursera上普林斯顿大学的“Statistics One(统计学上)

该课程去年在Coursera上开过一轮,反响很好,主讲统计学的基础知识,作业实验全部用R语言,所以关心R语言的同学也可以考虑这门课程。

9、Udacity的“Elementary Statistics(基础统计学)

从课程大纲来看这门课程难度不大,应该属于入门级的统计学课程。

10、Coursera上多伦多大学的“Statistics: Making Sense of Data

这门课程从大纲来看讲得比较基础,但是比较注重培养数据分析的感觉,用的也是R语言,并且有专门的章节讲解R语言,推荐关注统计和关注R语言的同学考虑。

11、Coursera上卫斯理大学的“Passion Driven Statistics

不知道怎么翻译了,难道是“激情驱动的统计学”?不过从大纲来看,这门课程更关注统计学在数据分析上的应用,使用的统计学软件是SAS统计分析工具,关注SAS的同学也可以关注这门课程。

12、网易公开课上的“哈里斯堡社区大学公开课:统计学入门

看了一下大纲,这门课程还是相当基础的,属于入门级的统计学课程,网易公开课一如既往的提供翻译和视频下载,功德无量,不过这门课程正在翻译中。

课程介绍:本课程的话题包括描述和总结图表及数字数据,概率,分销,参数估计,重要性估计,以及二变量数据探究。

13、网易公开课上的“统计学:数据图像化

这门课程应该属于TED的一个“数据可视化”系列演讲,称不上课程,但是看了几个视频之后,绝对会加深你对统计学的认识和兴趣。

通过优雅、生动的演讲,TED的演讲者们将海量的数据拆解,让数据变得变得简单易懂,甚至令人兴奋。这门课程将教会你如何将数据视觉化,优雅、引人入胜地呈现这些复杂的统计结果。

14、网易公开课上的“巴黎高等商学院公开课:决策统计学

这门课程应该属于统计学应用的范畴,虽然是法语讲得,但是觉得有翻译,应该还能看看,不过尝试看了一下视频后,发现PPT也是法语,所以比较适合学习法语同时对统计学感兴趣的同学。

课程介绍:这门课帮助学员熟悉帮助企业进行决策的统计方法的原理和原则。课程包含:海量数据组织/数据总结方法或者数据视图化方法。这种方法会帮助学员更好理解课程所研究理论。数据处理方法经常被用到人力资源管理和经济市场中用来帮助进行总结和决策。针对现实对象进行数学建模理论,在金融市场、会计和经济中经常会用到这种措施。

15、Coursera上的中文课程 “概率

由台湾大学叶丙成教授授课,8月份开课,课程简介很有意思:“我们的作业将搭配台大电机系所开发的多人竞技线上游戏方式,让同学在游戏中快乐的学习,快速培养同学们对于概率的洞察力与应用能力”

16、Coursera上约翰霍普金斯大学推出的”Mathematical Biostatistics Boot Camp

面向生物统计学,主讲概率和统计的基础知识:Topics include probability, random variables, distributions, expectations, variances, independence, conditional probabilities, likelihood and some basic inferences based on confidence intervals.

17、上一门课程的姊妹课:Mathematical Biostatistics Boot Camp 2

主要包括假设检验,卡方检验,Fisher精确检验,非参数检验等更深入一些的统计学知识点:Learn fundamental concepts in data analysis and statistical inference, focusing on one and two independent samples.

目前主要关注的是国外统计学公开课资源,如果你还有其他不错的统计学公开课资源和链接,欢迎推荐到这里,这里会进一步丰富和整理相关的课程信息。

注:原创文章,转载请注明出处“课程图谱博客”:blog.coursegraph.com

本文链接地址:http://blog.coursegraph.com/统计学公开课大盘点