内容简介
《机器学习 : 全彩图解+微课+Python编程》是“鸢尾花数学大系:从加减乘除到机器学习”丛书的最后一册,前六本解决了编程、可视化、数学、 数据方面的诸多问题,而《机器学习 : 全彩图解+微课+Python编程》将开启机器学习经典算法的学习之旅。
《机器学习 : 全彩图解+微课+Python编程》设置了 24 个话题,对应四大类机器学习经典算法(回归、分类、降维、聚类),覆盖算法包括: 回归分析、多元线性回归、非线性回归、正则化回归、贝叶斯回归、高斯过程、k 最近邻分类、朴素贝叶 斯分类、高斯判别分析、支持向量机、核技巧、决策树、主成分分析、截断奇异值分解、主成分分析进阶、 主成分分析与回归、核主成分分析、典型相关分析、 k 均值聚类、高斯混合模型、最大期望算法、层次聚类、 密度聚类、谱聚类。
《机器学习 : 全彩图解+微课+Python编程》选取算法模型的目标是覆盖 Scikit-Learn 库的常用机器学习算法函数,让读者充分理解算法理论, 又能联系实际应用。因此,在学习《机器学习 : 全彩图解+微课+Python编程》时,特别希望调用 Scikit-Learn 各种函数来解决问题之余,更要理解 算法背后的数学工具。因此,《机器学习 : 全彩图解+微课+Python编程》给出适度的数学推导以及扩展阅读。
《机器学习 : 全彩图解+微课+Python编程》提供代码示例和视频讲解,“鸢尾花书”强调在 JupyterLab 自主探究学习才能提高编程技能。本 书配套微课也主要以配套 Jupyter Notebooks 为核心,希望读者边看视频,边动手练习。
《机器学习 : 全彩图解+微课+Python编程》读者群包括所有试图用机器学习解决问题的朋友,尤其适用于机器学习入门、初级程序员转型、 高级数据分析师、机器学习进阶。
目录
绪论 ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? 1
第 1章 机器学习 ???????????????????????????????????????????????????????????????????????????????????????????????????????????? 7
1.1 什么是机器学习? 8
1.2 回归:找到自变量与因变量关系 10
1.3 分类:针对有标签数据 14
1.4 降维:降低数据维度,提取主要特征 16
1.5 聚类:针对无标签数据 20
1.6 机器学习流程 21
1.7 下一步学什么? 24
第 2章 回归分析 ?????????????????????????????????????????????????????????????????????????????????????????????????????????? 27
2.1 线性回归:一个表格、一条直线 29
2.2 方差分析 (ANOVA) 32
2.3 总离差平方和 (SST) 35
2.4 回归平方和 (SSR) 37
2.5 残差平方和 (SSE) 38
2.6 几何视角:勾股定理 40
2.7 拟合优度:评价拟合程度 42
2.8 F 检验:模型参数不全为 0 44
2.9 t 检验:某个回归系数是否为 0 46
2.10 置信区间:因变量均值的区间 50
2.11 预测区间:因变量特定值的区间 51
2.12 对数似然函数:用在最大似然估计 (MLE) 51
2.13 信息准则:选择模型的标准 52
2.14 残差分析:假设残差服从均值为 0 的正态分布 53
2.15 自相关检测:Durbin-Watson 54
2.16 条件数:多重共线性 55
第 3章 多元线性回归 57
3.1 多元线性回归 58
3.2 优化问题:OLS 60
3.3 几何解释:投影 63
3.4 二元线性回归实例 65
3.5 多元线性回归实例 68
3.6 正交关系 72
3.7 三个平方和 75
3.8 t 检验 77
3.9 多重共线性 78
3.10 条件概率视角看多元线性回归 80
第4章 非线性回归 85
4.1 线性回归 86
4.2 线性对数模型 88
4.3 非线性回归 90
4.4 多项式回归 92
4.5 逻辑回归 97
4.6 逻辑函数完成分类问题 102
第 5章 正则化回归 109
5.1 正则化:抑制过拟合 110
5.2 岭回归 113
5.3 几何角度看岭回归 119
5.4 套索回归 121
5.5 几何角度看套索回归 123
5.6 弹性网络回归 127
第 6章 贝叶斯回归 133
6.1 回顾贝叶斯推断 134
6.2 贝叶斯回归:无信息先验 137
6.3 使用 PyMC 完成贝叶斯回归 137
6.4 贝叶斯视角理解岭正则化 142
6.5 贝叶斯视角理解套索正则化 144
第 7章 高斯过程 149
7.1 高斯过程原理 150
7.2 解决回归问题 156
7.3 解决分类问题 157
第8章 k最近邻分类 ???????????????????????????????????????????????????????????????? 163
8.1 k 最近邻分类原理:近朱者赤,近墨者黑 164
8.2 二分类:非红,即蓝 166
8.3 三分类:非红,要么蓝,要么灰 168
8.4 近邻数量 k 影响投票结果 170
8.5 投票权重:越近,影响力越高 173
8.6 最近质心分类:分类边界为中垂线 174
8.7 k-NN 回归:非参数回归 177
第 9章 朴素贝叶斯分类 181
9.1 重逢贝叶斯 182
9.2 朴素贝叶斯的“朴素 ”之处 186
9.3 高斯,你好 198
前言/序言
首先感谢大家的信任。
作者仅仅是在学习应用数学科学和机器学习算法时,多读了几本数学书,多做了一些思考和知识 整理而已。知者不言,言者不知。知者不博,博者不知。由于作者水平有限,斗胆把自己有限所学所 思与大家分享,作者权当无知者无畏。希望大家在 B 站视频下方和 GitHub 多提意见,让“鸢尾花数 学大系—从加减乘除到机器学习 ”丛书成为作者和读者共同参与创作的优质作品。
特别感谢清华大学出版社的栾大成老师。从选题策划、内容创作到装帧设计,栾老师事无巨细、 一路陪伴。每次与栾老师交流,都能感受到他对优质作品的追求、对知识分享的热情。
出来混总是要还的
曾经,考试是我们学习数学的唯一动力。考试是头悬梁的绳,是锥刺股的锥。我们中的绝大多数 人从小到大为各种考试埋头题海,学数学味同嚼蜡,甚至让人恨之入骨。
数学给我们带来了无尽的“折磨”。 我们甚至恐惧数学,憎恨数学,恨不得一走出校门就把数学 抛之脑后,老死不相往来。
可悲可笑的是,我们很多人可能会在毕业五年或十年以后,因为工作需要,不得不重新学习微积分、 线性代数、概率统计,悔恨当初没有学好数学,走了很多弯路,没能学以致用,甚至迁怒于教材和老师。
这一切不能都怪数学,值得反思的是我们学习数学的方法和目的。
再给自己一个学数学的理由
为考试而学数学,是被逼无奈的举动。而为数学而学数学,则又太过高尚而遥不可及。
相信对于绝大部分的我们来说,数学是工具,是谋生手段,而不是目的。我们主动学数学,是想 用数学工具解决具体问题。
现在,本丛书给大家带来一个学数学、用数学的全新动力—数据科学、机器学习。
数据科学和机器学习已经深度融合到我们生活的方方面面,而数学正是开启未来大门的钥匙。不
是所有人生来都握有一副好牌,但是掌握“数学 + 编程 + 机器学习 ”的知识绝对是王牌。这次,学习 数学不再是为了考试、分数、升学,而是为了投资时间,自我实现,面向未来。
未来已来,你来不来?
本丛书如何帮到你
为了让大家学数学、用数学,甚至爱上数学,作者可谓颇费心机。在丛书创作时,作者尽量克服 传统数学教材的各种弊端,让大家学习时有兴趣、看得懂、有思考、更自信、用得着。
为此,丛书在内容创作上突出以下几个特点。
虽然本书标榜“从加减乘除到机器学习”, 但是建议读者朋友们至少具备高中数学知识。如果读 者正在学习或曾经学过大学数学 (微积分、线性代数、概率统计) ,那么就更容易读懂本丛书了。
聊聊数学
数学是工具 。锤子是工具,剪刀是工具,数学也是工具。
数学是思想 。数学是人类思想高度抽象的结晶。在其冷酷的外表之下,数学的内核实际上就是人 类朴素的思想。学习数学时,知其然,更要知其所以然。不要死记硬背公式、定理,理解背后的数学 思想才是关键。如果你能画一幅图,用大白话描述清楚一个公式、一则定理,这就说明你真正理解了它。
数学是语言 。就好比世界各地不同种族有自己的语言,数学则是人类共同的语言和逻辑。数学这 门语言极其精准,高度抽象,放之四海而皆准。虽然我们中大多数人没有被数学“女神 ”选中,不能 为人类对数学认知开疆拓土,但是这丝毫不妨碍我们使用数学这门语言。就好比,我们不会成为语言 学家,但是我们完全可以使用母语和外语交流。
数学是体系 。代数、几何、线性代数、微积分、概率统计、优化方法等,看似一个个孤岛,实际 上它们都是由数学网络连接起来的。建议大家学习时,特别关注不同数学板块之间的联系,见树, 更要见林。
数学是基石 。拿破仑曾说:“数学的日臻完善和国强民富息息相关。”数学是科学进步的根基, 是经济繁荣的支柱,是保家卫国的武器,是探索星辰大海的航船。
数学是艺术 。数学和音乐、绘画、建筑一样,都是人类艺术体验。通过可视化工具,我们会在看 似枯燥的公式、定理、数据背后,发现数学之美。
数学是历史,是人类共同记忆体。“历史是过去,又属于现在,同时在指引未来。”数学是人类
II
的集体学习思考,它把人的思维符号化、形式化,进而记录、积累、传播、创新、发展。从甲骨、泥 板、石板、竹简、木牍、纸草、羊皮卷、活字印刷字模、纸张,到数字媒介,这一过程持续了数千年, 至今绵延不息。
数学是无穷无尽的想象力,是人类的好奇心,是自我挑战的毅力,是一个接着一个的问题,是看 似荒诞不经的猜想,是一次次胆大包天的批判性思考,是敢于站在前人臂膀之上的勇气,是孜孜不倦 地延展人类认知边界的不懈努力。
家园、诗、远方
诺瓦利斯曾说:“哲学就是怀





















