内容简介
本书的主要内容有:确保数据科学工作流程创造价值。设计可操作的、及时的和相关的指标。提供引人瞩目的叙述以获得利益相关者的支持。使用模拟确保你的机器学习算法是解决该问题的正确工具。识别、纠正和预防数据泄露。通过估计因果效应理解增量性。
精彩书评
                                                          ★“Daniel又写了一部杰作,作为数据科学家与商业高管之间价值创造的连接纽带。这本书是实现数据科学商业成功所缺失的手册。”
  ——Adri Purkayastha Global Head of AI Technology Risk, BNP Paribas
  ★“涵盖了从经济学到广告,再到流行病学的所有内容,以及如何在实践中应用数据科学技术。它从大多数书籍结束的地方开始,即基于数据洞察的实际决策过程。这是任何数据科学家书架上早该添加的作品。”
  ——Brett Holleman Freelance data scientist
                                                    
精彩书摘
                                                          第一部分 数据分析技术
  第1章 那又怎样?利用数据科学创造价值
  过去二十年,数据科学(Data Science,DS)取得了令人瞩目的发展,从一个只有硅谷顶尖科技公司才能负担得起的相对小众领域,发展到如今在许多行业和国家的组织中都存在。尽管如此,许多团队仍然难以为其公司创造可衡量的价值。
  那么,DS对组织的价值是什么?我发现所有资深的数据科学家都在努力解决这个问题,所以也难怪组织会有此疑问。我在第一章中的目标是描述使用DS创造价值的一些基本原则。我相信理解和内化这些原则可以帮助你成为更好的数据科学家。
  1.1 价值是什么
  公司是为了为股东、客户和员工(以及整个社会)创造价值。当然,相对于其他的选择来说,股东期望能获得投资回报。客户从产品的消费中获得价值,并期望这至少与他们支付的价格一样多。
  原则上,所有团队和职能部门都应以某种可衡量的方式为价值创造的过程作出贡献,但在许多情况下是没办法进行明确的量化的。DS对这种缺乏可衡量性的情况并不陌生。在我的《Analytical Skills for AI and Data Science》(O'Reilly)一书里,我提出了用数据创造价值的一般方法(见图1-1)。这个想法很简单:数据本身不创造价值。其价值来自利用这些数据所做出的决策的质量。起初,你描述公司当前和过去的状况。通常使用传统的商业智能(BI)工具来完成,如仪表板和报告。借助机器学习(ML),你可以预测有关未来的状态,并试着规避使决策过程变得更加困难的不确定性。如果你能够自动化并优化决策过程的某些部分就能达到顶峰了。那本书主要是为了帮助从业者利用数据做出更好的决策,所以我在这里就不再重复了。
  尽管它可能很直观,但我发现这种描述过于笼统和抽象,不适合数据科学家在实践中使用,所以随着时间的推移,我将其转化为一个框架,在介绍叙述的主题(第7章)时,这个框架也会很方便。
  归根结底,这是同一条原则:增量价值来自提高组织的决策能力。为此,你确实需要了解手头的业务问题(是什么),认真思考手段(所以呢),并积极主动地进行应对(现在怎么办)。
  1.2 是什么:了解业务
  我总是说,数据科学家应该像利益相关者一样了解业务。关于业务我指的是所有的东西,从运营方面,比如理解和提出新的指标(第2章)以及利益相关者可以采取的能够影响这些指标的措施,到业务背后的经济和心理因素(例如,是什么促使消费者购买你的产品)。
  对于数据科学家来说,这听起来有很多东西要学,尤其是你还需要不断更新这些日益发展的技术工具的知识。你真的必须这样做吗?难道你不能只专注于算法、技术栈和数据的技术(有趣)的部分,而让利益相关者专注于他们(不那么有趣)的事情吗?
  我的第一个主张是业务是很有趣的!如果数据科学家希望他们的声音被实际的决策者听到,就绝对有必要赢得利益相关者的尊重,即使你不觉得这是令人兴奋的。
  在继续之前,让我强调一下,数据科学家很少是商业战略和策略的实际决策者:利益相关者才是实际决策者,包括营销、财务、产品、销售,以及公司中的任何其他团队。
  ……
                                                    
目录
目录
前言 1
第一部分 数据分析技术
第1 章 那又怎样?利用数据科学创造价值 . 11
1.1 价值是什么 11
1.2 是什么:了解业务 12
1.3 所以呢:在DS 中创造价值的要点 .14
1.4 现在怎么办:成为一个积极进取的人 15
1.5 衡量价值16
1.6 关键要点18
1.7 扩展阅读19
第2 章 指标设计 21
2.1 指标应具备的理想属性 .21
2.1.1 可衡量 21
2.1.2 可操作性 .22
2.1.3 相关性 22
2.1.4 及时性 22
2.2 指标分解23
2.2.1 漏斗分析 .23
2.2.2 存量流量分解 24
2.2.3 P×Q 型分解 .25
2.3 例子:另一种收入分解 .25
2.4 例子:市场 26
2.5 关键要点27
2.6 扩展阅读28
第3 章 增长分解:理解顺境与逆境 29
3.1 为什么要进行增长分解 .29
3.2 加法分解30
3.2.1 例子 30
3.2.2 解释和用例 31
3.3 乘法分解32
3.3.1 例子 33
3.3.2 解释 34
3.4 混合比率分解 .34
3.4.1 例子 35
3.4.2 解释 36
3.5 数学推导37
3.5.1 加法分解 .37
3.5.2 乘法分解 .37
3.5.3 混合比率分解 38
3.6 关键要点39
3.7 扩展阅读39
第4 章 2×2 设计 .41
4.1 简化的案例 41
4.2 什么是2×2 设计 .42
4.3 示例:测试模型和新功能 44
4.4 示例:了解用户行为 46
4.5 例子:信贷发放和接收 .48
4.6 示例:确定工作流程的优先级 49
4.7 关键要点50
4.8 扩展阅读51
第5 章 构建商业案例 53
5.1 构建商业案例的一些原则 53
5.2 示例:主动留存策略 54
5.3 欺诈罪预防 56
5.4 购买外部数据集 57
5.5 从事一个数据科学项目 .58
5.6 关键要点58
5.7 扩展阅读59
第6 章 提升度是什么 61
6.1 定义提升度 61
6.2 示例:分类器模型 62
6.3 自选择偏差和幸存者偏差 63
6.4 提升度的其他用途 65
6.5 关键要点65
6.6 扩展阅读66
第7 章 叙述 67
7.1 什么是叙述:用你的数据来讲故事.67
7.1.1 清晰明了的 68
7.1.2 可信的 70
7.1.3 难忘的 71
7.1.4 可操作的 .72
7.2 构建一个故事 .72
7.2.1 科学讲述 .72
7.2.2 什么,那又怎样,现在怎么办 .74
7.3 最后的阶段 75
7.3.1 写TL;DR .75
7.3.2 如何撰写令人难忘的TL;DR .76
7.3.3 示例:为本章节写TL;DR 77
7.3.4 进行有力的电梯演讲.79
7.3.5 展现你的叙述 79
7.4 关键要点80
7.5 扩展阅读81
第8 章 数据可视化:选择正确的图表来传递信息 83
8.1 一些有用的和不太常用的数据可视化 83
8.1.1 条形图和折线图 83
8.1.2 斜线图 85
8.1.3 瀑布图 86
8.1.4 平滑散点图 87
8.1.5 绘制分布 .88
8.2 一般建议90
8.2.1 为你想传达的信息找到正确的图表 90
8.2.2 明智的选择颜色 91
8.2.3 图表中的不同维度 .92
8.2.4 争取足够大的数据墨水比率 .92
8.2.5 定制与半自动化相比.93
8.2.6 从一开始就确定正确的字体大小 93
8.2.7 交互的或者静态的 .94
8.2.8 保持简单 .94
8.2.9 从解释图表开始 95
8.3 关键要点95
8.4 扩展阅读95
第二部分 机器学习
第9 章 模拟法和自助法 .99
9.1 基本的模拟 100
9.2 模拟线性模型和线性回归 .103
9.3 什么是部分依赖图 .105
9.4 遗漏变量偏差 110
9.5 模拟分类问题 113
9.5.1 潜在变量模型 .113
9.5.2 比较不同算法 .114
9.6 自助法 . 116
9.7 关键要点. 119
9.8 扩展阅读.120
第10 章 线性回归:回到基础 121
10.1 什么是系数 .121
10.2 Frisch-Waugh-Lovell 定理 125
10.3 为什么你应该关心FWL 128
10.4 干扰因子 129
10.5 额外变量 131
10.6 在机器学习中变化是中心角色 .133
10.7 关键要点 137
10.8 扩展阅读 138
第11 章 数据泄露 141
11.1 什么是数据泄露 141
11.1.1 结果也是一个特征 142
11.1.2 特征是结果的函数 142
11.1.3 不良控制变量 142
11.1.4 时间戳标记错误 .143
11.1.5 具有不规则时间聚合的多个数据集 .
试读
                                                          第一部分 数据分析技术
  第1章 那又怎样?利用数据科学创造价值
  过去二十年,数据科学(Data Science,DS)取得了令人瞩目的发展,从一个只有硅谷顶尖科技公司才能负担得起的相对小众领域,发展到如今在许多行业和国家的组织中都存在。尽管如此,许多团队仍然难以为其公司创造可衡量的价值。
  那么,DS对组织的价值是什么?我发现所有资深的数据科学家都在努力解决这个问题,所以也难怪组织会有此疑问。我在第一章中的目标是描述使用DS创造价值的一些基本原则。我相信理解和内化这些原则可以帮助你成为更好的数据科学家。
  1.1 价值是什么
  公司是为了为股东、客户和员工(以及整个社会)创造价值。当然,相对于其他的选择来说,股东期望能获得投资回报。客户从产品的消费中获得价值,并期望这至少与他们支付的价格一样多。
  原则上,所有团队和职能部门都应以某种可衡量的方式为价值创造的过程作出贡献,但在许多情况下是没办法进行明确的量化的。DS对这种缺乏可衡量性的情况并不陌生。在我的《Analytical Skills for AI and Data Science》(O'Reilly)一书里,我提出了用数据创造价值的一般方法(见图1-1)。这个想法很简单:数据本身不创造价值。其价值来自利用这些数据所做出的决策的质量。起初,你描述公司当前和过去的状况。通常使用传统的商业智能(BI)工具来完成,如仪表板和报告。借助机器学习(ML),你可以预测有关未来的状态,并试着规避使决策过程变得更加困难的不确定性。如果你能够自动化并优化决策过程的某些部分就能达到顶峰了。那本书主要是为了帮助从业者利用数据做出更好的决策,所以我在这里就不再重复了。
  尽管它可能很直观,但我发现这种描述过于笼统和抽象,不适合数据科学家在实践中使用,所以随着时间的推移,我将其转化为一个框架,在介绍叙述的主题(第7章)时,这个框架也会很方便。
  归根结底,这是同一条原则:增量价值来自提高组织的决策能力。为此,你确实需要了解手头的业务问题(是什么),认真思考手段(所以呢),并积极主动地进行应对(现在怎么办)。
  1.2 是什么:了解业务
  我总是说,数据科学家应该像利益相关者一样了解业务。关于业务我指的是所有的东西,从运营方面,比如理解和提出新的指标(第2章)以及利益相关者可以采取的能够影响这些指标的措施,到业务背后的经济和心理因素(例如,是什么促使消费者购买你的产品)。
  对于数据科学家来说,这听起来有很多东西要学,尤其是你还需要不断更新这些日益发展的技术工具的知识。你真的必须这样做吗?难道你不能只专注于算法、技术栈和数据的技术(有趣)的部分,而让利益相关者专注于他们(不那么有趣)的事情吗?
  我的第一个主张是业务是很有趣的!如果数据科学家希望他们的声音被实际的决策者听到,就绝对有必要赢得利益相关者的尊重,即使你不觉得这是令人兴奋的。
  在继续之前,让我强调一下,数据科学家很少是商业战略和策略的实际决策者:利益相关者才是实际决策者,包括营销、财务、产品、销售,以及公司中的任何其他团队。
  ……
                                                    
前言/序言
前言
我认为学习和实践数据科学是困难的。这是因为人们期望你不仅要成为一名优秀的程序员,掌握数据结构及其计算复杂性的细微差别,还要精通Python 和SQL。统计学及最新的机器学习预测技术应该是你的第二语言,你还需要能够应用所有这些知识来解决可能出现的实际商业问题。然而,这项工作也很困难,因为你还必须成为一位优秀的沟通者,能够向不熟悉数据驱动决策的非技术利益相关者讲述引人入胜的故事。
所以,让我们诚实一点:数据科学的理论与实践很难几乎是不言而喻的。任何旨在覆盖数据科学困难部分的书籍,要么是百科全书式的全面,要么必须经过预筛选流程,剔除某些主题。
我必须一开始就承认,这是一系列我认为在数据科学学习中较难的主题,而这一标签本质上是主观的。为了减少主观性,我想说这些主题并不是因为复杂性而更难学习,而是因为在当今阶段,这个职业对这些作为入门主题的重要性评估相对较低。因此,在实践中,它们更难学习,因为很难找到相关的材料。
数据科学课程通常强调学习编程和机器学习,这也是我称之为数据科学中的“大主题”。几乎所有其他内容都要在工作中学习,不幸的是,能否找到一个导师,对你的第一份或第二份工作有很大影响。大型科技公司好的地方在于它们拥有同样庞大的人才密度,所以这些相对隐形的主题成为当地公司亚文化的一部分,而这些信息对许多从业人员来说是难以获得的。
这本书旨在帮助你成为一名更高效的数据科学家。我将其分为两个部分:数据分析的主题和数据科学的软技能,以及关于机器学习(ML)。
尽管可以按照任意顺序阅读而不会产生重大摩擦,但某些章节确实引用了之前的章节;大多数情况下,你可以跳过这些引用,内容仍然会保持清晰和自解释。引用主要用于提供在看似独立主题之间的统一感。
第一部分包含的主题:
第1 章,那又怎样?利用数据科学创造价值
数据科学在为组织创造价值中的作用是什么?如何衡量?
第2 章,指标设计
我认为数据科学家最适合改进可操作指标的设计。在这里,我向你展示如何做到这一点。
第3 章,增长分解:理解顺境与逆境
了解业务发生的情况并提出引人注目的故事是数据科学家常见的任务。本章介绍一些可以用来自动化部分工作流程的增长分解。
第4 章,2×2 设计
学习简化世界可以帮助你走得更远,而2×2 设计将帮助你实现这一目标,并改善与利益相关者的沟通。
第5 章,构建商业案例
在开始项目之前,你应该有一个商业案例。本章向你展示如何做到这一点。
第6 章,提升度是什么
虽然很简单,提升度可以加快你可能考虑用机器学习完成的分析。我在本章中解释提升度。
第7 章,叙述
数据科学家需要变得更擅长讲故事和构建引人入胜的叙述。在这里,我向你展示如何做到。
第8 章,数据可视化:选择正确的图表来传递信息
花足够的时间在数据可视化上也应该有助于你的叙述。本章讨论了一些最佳实践。
第二部分是关于机器学习(ML)的部分:
第9 章,模拟法和自助法
模拟技术可以帮助你加强对不同预测算法的理解。我将向你展示如何使用,以及使用你最喜欢的回归和分类技术时的一些注意事项。我还讨论了可以用来找到一些难以计算的估计值的置信区间的抽样技术。
第10 章,线性回归:回到基础
深入了解线性回归对于理解一些更高级的主题至关重要。在这一章中,我回到基础知识,希望能够为机器学习算法提供更强的直观基础。
第11 章,数据泄露
什么是数据泄露,如何识别和防止它?本章将说明。
第12 章,生产化模型
一个模型只有在它达到生产阶段时才是有用的。幸运的是,这是一个被很好理解和结构化的问题,我会展示这些步骤中的关键步骤。
第13 章,机器学习中的故事讲述
你可以使用一些优秀的技术来打开黑箱子,以便在机器学习中出色地讲述故事。
第14 章,从预测到决策
我们通过数据驱动和机器学习驱动的流程增强决策能力,从而创造价值。这里我向你展示如何从预测转向决策的例子。
第15 章,增量:数据科学的圣杯
因果关系在数据科学中得到了越来越多的关注,但仍然被视为一个相对小众的领域。在这章中,我将介绍基础知识,并提供可以在你的组织中直接应用的示例和代码。
第16 章,A/B 测试
A/B 测试是估计替代行动增量性的典型例子。但实验需要一些强大的统计学背景(和商业知识)。
第17 章是比较特殊的,因为这是唯一一章没有呈现任何技术的地方。在这里,我对数据科学的未来做了一些推测,考虑到生成性人工智能(AI)的出现。主要收获是,我预计职位描述在未来几年会发生剧烈变化,数据科学家应该为这场革命做好准备。
这本书面向所有级别和资历的
                      

                   


















