《机器学习实战》阅读计划

《机器学习实战》阅读计划

ID:33126417

大小:150.35 KB

页数:5页

时间:2019-02-20

《机器学习实战》阅读计划_第1页
《机器学习实战》阅读计划_第2页
《机器学习实战》阅读计划_第3页
《机器学习实战》阅读计划_第4页
《机器学习实战》阅读计划_第5页
资源描述:

《《机器学习实战》阅读计划》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《机器学习实战》阅读计划——大数据与机器学习群阅读计划(第1期)领读人:AllenMoore本书特色简洁:更多地讨论如何编码实现机器学习算法,而尽量减少讨论数学理论实用:更多地讨论如何转化数学矩阵描述的机器学习算法可以实际工作的应用程序趣味:更多地讨论如何使用机器学习应用程序解决生活出现的有趣问题适合读者:需要进行数据处理,想获取并理解数据总阅读时间长度(预估):5周每天阅读用时:2小时答疑时间安排:每周1次,每周二晚大数据与机器学习群20:00—22:00图灵社区本书网址:http://www.ituring.

2、com.cn/book/1021图灵阅读计划网址:https://github.com/BetterTuring/turingWeChatGroups阅读建议为了更好地阅读本书,读者需要:一些编程概念:流程控制(比如递归)、数据结构(比如树结构)一些数学知识:线性代数、概率论一些Python经验:Python编程知识阅读规划第一部分(第1~7章)分类阅读时长:2周重点内容&难点内容1.机器学习基础机器学习的主要任务如何选择合适的算法开发机器学习应用程序的步骤2.k-近邻算法实施kNN算法准备数据:归一化数值准备数

3、据:将图像转换为测试向量3.决策树决策树的构造4.基于概率论的分类方法:朴素贝叶斯基于贝叶斯决策理论的分类方法准备数据:从文本中构建词向量5.Logistic回归基于Logistic回归和Sigmoid函数的分类6.支持向量机7.利用AdaBoost元算法提高分类性能基于数据集多重抽样的分类器bagging:基于数据随机重抽样的分类器构建方法补充这一部分主要探讨监督学习(supervisedlearning):给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习一般使用两种类型的目标变量:标称型和

4、数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、车辆用途分类集合{bus、van、suv、jeep};数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001、1000.743等。分类算法针对标称型目标变量,主要有最简单的k_近邻算法,比较直观、容易理解但是相对难于实现的决策树,基于概率论的朴素贝叶斯,优化算法的Logistic回归,非常流行的支持向量机,元算法——AdaBoost。读者需要注意分类算法之间的区别与联系,务必掌握各个分类算法的优势以及思考如何在实际项目之间进行取舍和搭配。

5、此外,读者也需要注数据预处理和数据之间的转化技巧,以备不时之需。第二部分(第8~9章)利用回归预测数值型数据阅读时长:1周重点内容&难点内容1.预测数值型数据:回归用线性回归找到最佳拟合直线局部加权线性回归岭回归lasso前向逐步回归权衡偏差与方差2.树回归复杂数据的局部性建模连续和离散型特征的树的构建将CART算法用于回归树剪枝补充这一部分仍然主要探讨监督学习(见第一部分补充内容)。回归针对的其目标变量是连续数值型,主要有线性回归、局部加权线性回归和收缩方法以及树回归。读者需要注意分类算法与回归算法的不同,需要

6、了解不同回归算法的特点以及线性回归和树回归之间的本质差异。第三部分(第10~12章)无监督学习阅读时长:1周重点内容&难点内容1.利用K-均值聚类算法对未标注数据分组K-均值聚类算法使用后处理来提高聚类性能二分K-均值算法2.使用Apriori算法进行关联分析关联分析Apriori原理使用Apriori算法来发现频繁集从频繁项集中挖掘关联规则3.使用FP-growth算法来高效发现频繁项集构建FP树补充这一部分介绍的是无监督机器学习方法。不同于有监督学习,无监督学习中并不存在类似分类和回归中的目标变量。无监督学习

7、只需要从算法程序中得到这些数据的共同特征,无需用户知道搜寻的目标对象。主要有K-均值聚类算法、关联分析的Apriori算法以及改进关联分析的FP_Growth算法。读者需要注意无监督机器学习算法与有监督学习算法的差异,需要留意K-均值聚类算法和K-近邻分类算法之间的联系,同时关注FP_Growth算法对于原始Apriori算法的改进点。第四部分(第13~15章)其他工具阅读时长:1周重点内容&难点内容1.利用PCA来简化数据降维技术PCA2.利用SVD简化数据SVD的应用3.大数据与MapReduceMapRed

8、uce:分布式计算的框架Hadoop流在Amazon网络服务上运行Hadoop程序MapReduce上的机器学习补充降维的目标就是对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能,主要有主成分分析降维方法(PCA)以及矩阵分解技术(SVD)。大数据(bigdata)指的就是为了避免数据量过大时,内存不够而使用硬盘虚拟内存导致作业变慢的问题。将整个作业进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。