内容简介
一部权威、通俗、前沿的深度学习指南。
从机器学习基础知识到前沿模型,《理解深度学习》精选关键理论与尖端主题,以直观形式呈现高密度的核心知识。
>涵盖热门主题:如Transformer模型与扩散模型(Diffusion Model)。
>化繁为简:先以通俗语言阐释复杂概念,再辅以数学公式与视觉图解深入解析。
>实践导向:引导读者动手实现模型的初级版本。
>配套资源丰富:提供教师课件、习题及Python Notebook编程练习。
>适用读者:适合已掌握应用数学基础知识的本科生、研究生及从业者。
精彩书评
“本书的卓越之处在于,它既能解构复杂概念,又不减损其精妙性。……《理解深度学习》堪称一部全面且与时俱进的深度学习指南。在我看来,这是一部当之无愧的经典之作,是目前最优秀的深度学习教科书。它不仅仅是一本教材,更是一份以智慧、洞察力和前瞻性驾驭技术未来的路线图。”
——Nature Machine Intelligence
(《自然》旗下,计算机科学与AI领域国际顶级学术期刊)推荐语
“这是一部学术与视觉双重精妙的杰作。它以简洁而清晰的方式传递核心思想,并通过精心设计的插图加以诠释,堪称当今最出色的深度学习入门著作。”
——Kevin Murphy,Google DeepMind 研究科学家,
Probabilistic Machine Learning: Advanced Topics作者
人工智能的发展浩荡前行,累计出现过三次大的浪潮。第一次浪潮的符号主义困于逻辑的桎梏,第二次浪潮的连接主义受限于数据的藩篱,而作为第三次浪潮的深度学习技术则散发出魅力,为学术和产业界追捧,并持续酝酿、发酵及推动更猛烈的智能革命,被人们誉为第四次浪潮的大语言模型也正是基于深度学习。
由Simon J. D. Prince所著并由张亚东、马壮翻译的《理解深度学习》一书,从基础概念到核心技术再到最新进展,以全局视角系统性地梳理了深度学习的技术及应用发展全景,同时匹配了代码资源,是学术界和工业界有志于从事深度学习技术研究的新人上手实践不可多得的案头读物。
全书围绕深度神经网络的设计与应用展开,开篇聚焦网络训练策略以及性能评估,以奠定相关基础;继而深入解析卷积神经网络、残差连接与Transformer等关键架构的创新原理及其在各类任务中的适用性;随后剖析生成式对抗网络、变分自编码器、标准化流与扩散模型等现代生成机制,并概述深度强化学习的核心思想;结尾则从理论层面探讨深度网络的可训练性、泛化能力与参数冗余等基础问题,并从伦理角度反思深度学习技术的社会影响,内容上兼具理论深度与实践广度。
Simon教授因其具有工业界和学术界的双重经历,或许更了解那些苦于既不掌握技术细节,又难以动手实践的读者的困扰,因此本书写作风格深入浅出,配有大量的图与表以清楚地解释原本晦涩的概念,偶尔出现的公式看似枯燥,实际是有高等数学和线性代数基础读者可以轻松掌握的,也绝对是理论的有力补充。
深度学习技术及其应用已深入我们的工作与生活,如果你希望能够在这样一个智能革命的时代做一个弄潮儿,从这本书开始是个不错的选择。
——李鑫
科大讯飞AI研究院副院长,科研部部长
在AI技术飞速演进的今天,我们正迎来“从模型走向应用”的时代。无论是产业数字化升级,还是开发者的新一轮创业浪潮,人工智能的落地能力,正在成为一家公司能否穿越周期的关键变量。极客邦科技在 2025 年将“AI 应用落地”定为年度主题,正是基于这样的判断:时代的新窗口已经打开,技术理解力决定了实践行动力。
在这个背景下,我非常高兴看到Simon J.D. Prince的经典著作Understanding Deep Learning推出中文版《理解深度学习》。这本书并不只是一本理论教材,它是一部帮助读者“真正理解”深度学习的入门指南。在我们长期运营InfoQ极客传媒、极客时间和TGO鲲鹏会的过程中,经常听到工程师、架构师和CTO们吐槽:“讲 Transformer 的人太多,能讲明白的人太少;讲推理框架的人不少,但从头带你理解原理的人几乎没有。”而这本书,恰恰解决了这样的问题。
《理解深度学习》不是快餐式教学,而是一场系统思维的启蒙。它通过严谨而通俗的语言,从线性代数、概率基础一步步引导你走进深度神经网络的世界。与市面上许多“照公式堆概念”的 AI 教程不同,本书强调WHY胜于WHAT,强调“理解”胜于“记忆”。它告诉我们,只有真正明白深度学习是如何工作的,才可能在未来的工程场景中创造出具有价值的应用。
对我个人而言,本书的意义不仅在于技术层面,更在于方法论上的启发。它体现了极客邦科技在内容和教育产品设计中始终坚持的价值观:技术的传播,应该是“实践驱动”的,应该追求可理解、可推理、可迁移,而不仅仅是堆叠信息。
随着AIGC、Agent、Agentic AI等技术生态加速演进,我们越来越看到,未来的开发者既要“理解底层”,又要“善用高阶工具”;既要具备对模型机制的抽象理解,也要能把技术变成具体的生产力。这本书,是打好底层认知根基的首选。
最后,我想特别感谢清华大学出版社引进这本作品。在喧嚣的当下,需要有人静下心来,从底层逻辑入手,抽丝剥茧,为世人排除通往未来的道路上的重重障碍。所以说,《理解深度学习》不仅是一本技术书籍,更是一把钥匙,帮助我们打开AI世界的思维之门。我相信,对于每一个想在 AI 应用时代中抓住机会的读者来说,这都将是一次重要的认知启程。
——霍太稳
极客邦科技创始人兼CEO
<
目录
第1章 引言 1
1.1 监督学习 1
1.2 无监督学习 7
1.3 强化学习 11
1.4 伦理学 12
1.5 本书编排方式 13
1.6 其他书籍 14
1.7 如何阅读本书 15
第2章 监督学习 16
2.1 监督学习概述 16
2.2 线性回归示例 17
2.3 本章小结 21
2.4 注释 22
2.5 问题 22
第3章 浅层神经网络 24
3.1 神经网络示例 24
3.2 通用逼近定理 28
3.3 多变量输入和输出 29
3.4 浅层神经网络:一般情形 33
3.5 术语 33
3.6 本章小结 34
3.7 注释 34
3.8 问题 37
第4章 深度神经网络 40
4.1 组合神经网络 40
4.2 从组合网络到深度网络 43
4.3 深度神经网络 43
4.4 矩阵表示法 46
4.5 浅层与深度神经网络 48
4.6 本章小结 50
4.7 注释 50
4.8 问题 51
第5章 损失函数 54
5.1 最大似然 54
5.2 构建损失函数 58
5.3 示例1:单变量回归问题 58
5.4 示例2:二分类问题 63
5.5 示例3:多分类问题 65
5.6 多输出问题 67
5.7 交叉熵损失 68
5.8 本章小结 69
5.9 注释 70
5.10 问题 71
第6章 模型训练 74
6.1 梯度下降法 74
6.2 随机梯度下降 79
6.3 动量 82
6.4 Adam 优化器 84
6.5 训练算法超参数 86
6.6 本章小结 87
6.7 注释 87
6.8 问题 90
第7章 梯度与参数初始化 93
7.1 问题定义 93
7.2 计算导数 95
7.3 简单示例 96
7.4 反向传播算法 99
7.5 参数初始化 103
7.6 训练代码示例 107
7.7 本章小结 108
7.8 注释 108
7.9 问题 110
第8章 性能评估 114
8.1 训练简单模型 114
8.2 误差来源 116
8.3 降低误差 120
8.4 选择超参数 127
8.5 本章小结 128
8.6 注释 128
8.7 问题 131
第9章 正则化 133
9.1 显式正则化 133
9.2 隐式正则化 136
9.3 提高性能的启发式算法 139
9.4 本章小结 147
9.5 注释 148
9.6 问题 154
第10章 卷积网络 155
10.1 不变性和等变性 156
10.2 用于一维输入的卷积网络 157
10.3 二维输入的卷积网络 163
10.4 下采样和上采样 165
10.5 应用 167
10.6 本章小结 172
10.7 注释 172
10.8 问题 176
第11章 残差网络 178
11.1 顺序处理 178
11.2 残差连接和残差块 180
11.3 残差网络中的梯度爆炸 183
11.4 批量归一化 184
11.5 常见的残差架构 185
11.6 为什么具有残差连接的网络表现如此出色? 190
11.7 本章小结 190
11.8 注释 191
11.9 问题 195
第12章 变换器 197
12.1 处理文本数据 197
12.2 点积自注意力 198
12.3 点积自注意力的扩展 203
12.4 变换器 205
12.5 自然语言处理中的变换器 206
12.6 编码器模型示例:BERT 208
12.7 解码器模型示例:GPT-3 211
12.8 编码器-解码器模型示例:机器翻译 214
12.9 用于长序列的变换器 216
12.10 图像的变换器 217
12.11 本章小结 220
12.12 注释 221
12.13 问题 228
第13章 图神经网络 230
13.1 什么是图 230
13.2 图的表示 233
13.3 图神经网络、任务和损失函数 235
13.4 图卷积网络 237
13.5 示例:图分类 240
13.6 归纳模型与演绎模型 241
13.7 示例:节点分类 242
13.8 图卷积网络的层 245
13.9 边图 248
13.10 本章小结 249
13.11 注释 249
13.12 问题 254
第14章 无监督学习 257
14.1 无监督学习模型分类 257
14.2 什么是好的生成模型? 259
14.3 量化评估指标 260
14.4 本章小结 263
14.5 注释 263
第15章 生成式对抗网络 264
15.1 判别作为信号 264
15.2 提高稳定性 269
15.3 提升生成图像质量的方法 274
15.4 条件生成 276
15.5 图像翻译 279
15.6 StyleGAN 282
15.7 本章小结 284
15.8 注释 285
15.9 问题 288
第16
前言/序言
前言
在学术界,深度学习的发展史极不寻常。一小群科学家坚持不懈地在一个看似没有前途的领域工作了25年,最终使一个领域发生了技术革命并极大地影响了人类社会。研究者持续探究学术界或工程界中深奥且难以解决的问题,通常情况下这些问题无法得到根本性解决。但深度学习领域是个例外,尽管广泛的怀疑仍然存在,但Yoshua Bengio、Geoff Hinton 和Yann LeCun 等人的系统性努力最终取得了成效。
本书的书名是“理解深度学习”,这意味着它更关注深度学习背后的原理,而不侧重于编程实现或实际应用。本书的前半部分介绍深度学习模型并讨论了如何训练它们,评估它们的表现并做出改进。后半部分讨论专用于图像、文本、图数据的模型架构。只要学习过线性代数、微积分和概率论的二年级本科生都能掌握这些章节的知识。对于后续涉及生成模型和强化学习的章节,则需要更多的概率论和微积分知识,它们面向更高年级的学生。
这个书名在一定程度上也是一个玩笑——在撰写本书时,没有人能够真正理解深度学习。目前深度神经网络学习的分段线性函数的数量比宇宙中的原子数还多,可用远少于模型参数数量的样本进行训练。现在我们既无法找到可靠地拟合这些函数的方法,又不能保证能很好地描述新数据。第20章讨论了上述问题和其他尚未完全理解的问题。无论如何,深度学习都将或好或坏地改变这个世界。最后一章讨论了人工智能伦理,并呼吁从业者更多地考虑所从事的工作带来的伦理问题。
本书配套资源丰富,提供教师课件、习题及Python Notebook编程练习。
你的时间是宝贵的,为了保证你能高效理解深度学习相关知识,本书的内容都经过我的精心整理。每一章都对最基本思路进行简明描述,并附有插图。附录回顾了所有数学原理。对于希望深入研究的读者,可认真研究每章列出的问题、Python Notebook资源和背景说明。