内容简介
内容简介
这是6位来自多个大厂的大数据工程师联合力扣撰写的,深度解读大数据算法面试母题的求职必备手册。本融合了几位作者总计数百次面试他人和被他人面试的经验,结合对大厂招聘的真实需求,深度解读精选自力扣的近百道具有代表性的算法题。这些题目覆盖了几乎所有大数据从业者需要掌握的算法题类型,它们有的来自力扣多年的专业沉淀,有的来自各家企业的真实招聘题库。
各位作者从实际应用场景出发,解读每道题出现在面试中的底层逻辑,然后给出具体的解题思路和编程示例,并从时间复杂度和空间复杂度两个层面分析示例程序。
第1章和第2章从数据结构这个层面解读数组、链表、字符串、哈希表、栈、队列、树和图,这是所有算法的基础,然后深入分析了排序、递归、分治、贪心、回溯算法以及动态规划等基础算法的母题。
第3章和第4章则聚焦大数据领域,从计算与存储两个维度解读面试中常见的算法题,比如Top k问题、中位数问题、位图算法问题、有序哈希字典问题、树存储问题、索引设计问题、海量数据写入与存储问题等。
第5章和第6章精选了多道来自真实面试的算法题进行精讲,并从如何高效刷题、如何准备面试两个层面给出精准指导。
目录
Contents 目 录
前言
第1章 基础数据结构1
1.1 数组1
1.1.1 两数之和—输入有序数组1
1.1.2 删除有序数组中的重复项3
1.1.3 思维延展5
1.2 链表6
1.2.1 合并两个有序链表7
1.2.2 相交链表8
1.2.3 思维延展11
1.3 字符串13
1.3.1 有效的字母异位词13
1.3.2 重复的子字符串14
1.3.3 找出字符串中第一个匹配项
的下标17
1.3.4 无重复字符的最长子串19
1.3.5 思维延展20
1.4 哈希表22
1.4.1 快乐数23
1.4.2 找到所有数组中消失的数字24
1.4.3 最长连续序列26
1.4.4 找到字符串中所有字母异
位词27
1.4.5 思维延展29
1.5 栈和队列31
1.5.1 有效的括号31
1.5.2 每日温度33
1.5.3 前k个高频元素35
1.5.4 合并k个升序链表37
1.5.5 思维延展39
1.6 树和二叉树42
1.6.1 二叉树的中序遍历43
1.6.2 二叉树的层序遍历44
1.6.3 从前序与中序遍历序列构造
二叉树47
1.6.4 二叉搜索树的最近公共祖先49
1.6.5 思维延展51
1.7 图53
1.7.1 岛屿的周长54
1.7.2 二进制矩阵中的最短路径56
1.7.3 思维延展58
第2章 基础算法60
2.1 排序算法60
2.1.1 排序数组的求解61
2.1.2 思维延展68
2.2 递归算法69
2.2.1 斐波那契数69
2.2.2 两两交换链表中的节点72
2.2.3 思维延展73
2.3 分治算法74
2.3.1 多数元素75
2.3.2 将有序数组转换为二叉
搜索树77
2.3.3 最大子数组和79
2.3.4 排序链表81
2.3.5 思维延展84
2.4 贪心算法85
2.4.1 分发饼干85
2.4.2 加油站87
2.4.3 跳跃游戏90
2.4.4 思维延展91
2.5 回溯算法92
2.5.1 寻找子集93
2.5.2 全排列94
2.5.3 岛屿数量96
2.5.4 n皇后98
2.5.5 思维延展101
2.6 动态规划101
2.6.1 爬楼梯102
2.6.2 不同路径104
2.6.3 编辑距离106
2.6.4 接雨水108
2.6.5 思维延展110
第3章 大数据量计算112
3.1 Top k问题112
3.1.1 前k个高频单词113
3.1.2 数组中的第k个最大元素116
3.1.3 思维延展—限制内存Top N118
3.2 中位数118
3.2.1 寻找两个正序数组的中位数119
3.2.2 数据流的中位数122
3.2.3 思维延展:如何从5亿个数
中找出中位数125
3.3 位图算法131
3.3.1 只出现一次的数字131
3.3.2 丢失的数字133
3.3.3 思维延展:统计不同手机
号码的个数136
第4章 树与存储结构138
4.1 有序哈希字典问题138
4.1.1 排序链表与哈希字典138
4.1.2 树形结构与哈希字典150
4.1.3 自平衡的树形结构AVL树153
4.1.4 红黑树159
4.2 树的存储问题161
4.2.1 二叉树的序列化问题162
4.2.2 快速查找树的父节点165
4.2.3 持久化的快速查找树167
4.2.4 线段树170
4.3 索引设计173
4.3.1 B树174
4.3.2 更快排序的树—B+树178
4.3.3 空间索引问题180
4.3.4 R树185
4.4 海量写入的存储设计192
4.4.1 LSM树192
4.4.2 Bloom Filter201
第5章 面试真题211
5.1 关键的位运算211
5.1.1 颠倒二进制位212
5.1.2 计数质数213
5.2 奇妙的数论题215
5.2.1 镜面反射215
5.2.2 n的第k个因子217
5.2.3 最简分数219
5.2.4 使数组可以被整除的最少
删除次数221
5.3 灵活的数据结构223
5.3.1 并查集类算法223
5.3.2 单调栈226
5.3.3 位图229
5.3.4 LRU缓存231
5.4 逃不过的算法题234
5.4.1 模拟题234
5.4.2 前缀和计算236
5.4.3 随机化239
5.5 必知必会的SQL算法242
5.5.1 连续时间问题243
5.5.2 时间间隔问题244
5.5.3 Top N问题245
5.5.4 用户留存率问题247
5.5.5 窗口函数问题248
第6章 面试准备指南250
6.1 算法刷题的重要性250
6.1.1 大数据时代的挑战251
6.1.2 算法对于大数据处理的作用251
6.2 大数据刷题技巧252
6.2.1 解决问题的方法论254
6.2.2 多种解法对比和分析的
重要性255
前言/序言
前 言 Preface
为什么要写这本书
数据结构(Data Structure)+算法(Algorithm)=程序(Program)。大多数从事计算机行业的人都听过这个公式。这个公式是Niklaus Wirth在1976年出版的《算法+数据结构:程序》一书中提出的。换一个通俗的说法:数据结构是程序的“肉体”,它承载着程序的核心——数据的结构,是计算机存储、组织数据的方式;算法是程序的“灵魂”,提供了程序执行的流程与步骤;程序是数据结构与算法在特定编程语言和执行环境下的结合,只有合适的数据结构设计与算法实现,才能实现编程者的设计目标,使程序正确地运行起来。
在“旧IT时代”,程序与数据的规模没有现在这么大,那时传统的算法与数据结构在小数据样本下,可以稳健地运行在单机环境中。随着互联网与物联网等更多互联互通的场景出现,越来越多的数据、越来越复杂的算法流程不断在“新IT时代”对技术人员发起挑战。相比于复杂的算法流程,海量的数据集对编程人员的影响更加直观,我们已经无法简单地使用一台服务器去存储数据了。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》一书中,大数据处理被定义为不用随机分析法或抽样调查这样的方式,而是对所有数据进行分析处理的过程。此时对大数据集的算法提出了新的挑战。
本书从传统的数据结构与算法入手,并扩展至用于解决大数据场景问题的数据结构与算法,内容涵盖了大数据行业面试要掌握的所有典型数据结构与算法题、当前行业中的常用新算法及面试技巧。本书旨在帮助读者全面提升自己在大数据领域的算法能力,从而获得自己想要的职位,并在未来的职场中取得更好的发展。
读者对象
本书的主要目标读者群可分为如下几种。
刚毕业或者即将毕业并准备进入大数据领域一展抱负的大学生。
准备从其他技术岗转战大数据相关岗位的技术人员。
对大数据算法感兴趣,想深入学习并想了解不同算法背后逻辑的大数据爱好者。
其他想在数据要素时代大展宏图,却缺乏大数据相关知识的人。
本书导读
本书的前半部分(第1章和第2章)主要对传统的数据结构与算法进行介绍。通过大量的典型题目,帮读者系统学习和巩固各种常见数据结构与算法的相关知识。这部分包含一系列题目,从简单到复杂,难度逐步提高。这些题目涵盖基础数据结构以及排序、递归、贪心、动态规划等多种算法,可以帮助读者深入理解算法的原理和应用。书中还提供了详细解析和代码实现,可帮助读者更好地掌握算法的实现。
中间部分(第3章~第5章)是对目前大数据行业中常用算法的介绍,也是面试中高频出现的内容。随着大数据技术的快速发展,各个行业都在积极探索和应用大数据算法来解决实际问题。本书通过各种典型题目及其分析,详细介绍了如何解答大数据行业中常用的大数据算法问题。读者可以通过学习这些题目,了解不同行业对大数据算法的需求和应用,为自己的面试和职业发展做好准备。
最后一部分(第6章)是关于如何面试的内容。面试是每个求职者都必须面对的一道难题,本书提供了一套完整的面试指南,包括面试前的准备、面试中的技巧及面试后的反思。通过学习这些内容,读者可以提高自己的面试表现,提升获得理想工作的概率。
勘误和支持
由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。大家可以关注PowerData社区公众号(搜索公众号名称“PowerData”,或者公众号的微信号“PowerDataHub”),回复“大数据算法”获得进入本书专属读者群的方法,本书所有作者都会在读者群和大家互动学习。还可以将书中的错误发布到读者群中,我们将尽量在线上为读者提供最满意的解答,期待能够得到你们的真挚反馈。
致谢
首先要感谢力扣网,提供了那么多好的算法题。
其次要感谢PowerData社区中每位充满创意和活力的朋友:李奇峰、老时、姜楠、李钊丞,以及名单之外的更多朋友,感谢你们长期对社区的支持和贡献。感谢“数据之力技术丛书”编委会的成员,你们的努力促成了这本书的合作与出版。
还要感谢机械工业出版社的孙海亮编辑,在这一年多的时间始终支持我们团队的写作,你的鼓励和帮助引导我们顺利完成全部书稿。
谨以此书献给PowerData社区的家人,以及众多热爱大数据技术的朋友!