内容简介
本书的主要内容有:设计现代化和安全的云原生或混合式数据分析和机器学习平台。整合数据到妥善治理、可扩展和有弹性的数据平台,以数据加速创新。实现企业数据访问的民主化,治理业务团队抽取洞察力的方式,并构建AI/ML能力。赋予业务团队用流处理流水线实时决策的能力。构建MLOps平台,采用预测分析和规范性分析方法。
目录
目录
前言 1
第1 章 数据平台现代化概览 . 11
1.1 数据生命周期 .12
1.1.1 智慧之旅 .12
1.1.2 水管类比 .13
1.1.3 采集 14
1.1.4 存储 15
1.1.5 处理和转换 17
1.1.6 分析和可视化 18
1.1.7 激活 19
1.2 传统方法的局限性 20
1.2.1 反模式:用ETL 打破数据孤岛 20
1.2.2 反模式:集中控制 .24
1.2.3 反模式:数据集市和Hadoop 25
1.3 创建统一的分析平台 27
1.3.1 从内部平台改为云平台 27
1.3.2 数据集市和数据湖的缺点 28
1.3.3 融合数据仓库和数据湖 29
1.4 混合云 34
1.4.1 混合的必要性 34
1.4.2 混合云的挑战 35
1.4.3 混合方案为什么可行.37
1.4.4 边缘计算 .38
1.5 采用AI 39
1.5.1 机器学习 .39
1.5.2 采用机器学习 40
1.6 AI 为什么要上云 42
1.6.1 云基础设施 42
1.6.2 普及机器学习 43
1.6.3 实时 45
1.6.4 MLOps .46
1.7 核心原则47
1.8 小结 .49
第2 章 数据创新战略步骤 .51
2.1 步骤1:战略规划.52
2.1.1 战略目标 .53
2.1.2 识别干系人 55
2.1.3 变更管理 .55
2.2 步骤2:采用云方法,降低总拥有成本 57
2.2.1 为什么云的成本更低.57
2.2.2 上云能省多少钱 59
2.2.3 上云时机 .59
2.3 步骤3:打破孤岛.60
2.3.1 统一数据访问 61
2.3.2 选择存储 .62
2.3.3 构建语义层 63
2.4 步骤4:在上下文更快决策 .65
2.4.1 从批处理到流处理 .65
2.4.2 上下文信息 66
2.4.3 成本管理 .66
2.5 步骤5:用AI 方案包跨越式发展 67
2.5.1 预测分析 .68
2.5.2 理解和生成非结构化数据 69
2.5.3 个性化 70
2.5.4 解决方案包 70
2.6 步骤6:运营由AI 驱动的工作流 71
2.6.1 找到自动决策和AI 辅助的最佳平衡点 71
2.6.2 营造数据文化 72
2.6.3 充实数据科学团队 .73
2.7 步骤7:将数据作为产品来管理 74
2.7.1 将产品管理原则应用于数据 .74
2.7.2 理解并维护企业的数据流地图 .74
2.7.3 识别关键指标 75
2.7.4 共识标准、承诺的路线图和愿景性待办事项 76
2.7.5 为现有客户构建产品.77
2.7.6 管理变更,勇于担责.78
2.7.7 客户访谈,发现数据需求 78
2.7.8 充分利用白板和原型.79
2.7.9 只构建立即就能投入使用的产品 79
2.7.10 标准化常用实体和KPI .80
2.7.11 数据平台提供自助服务 .80
2.8 小结 .80
第3 章 为数据团队而设计 .83
3.1 数据处理机构分类 83
3.2 数据分析驱动型机构 86
3.2.1 愿景 87
3.2.2 角色 88
3.2.3 技术框架 .90
3.3 数据工程驱动型机构 92
3.3.1 愿景 92
3.3.2 角色 94
3.3.3 技术框架 .96
3.4 数据科学驱动型机构 99
3.4.1 愿景 .100
3.4.2 角色 .102
3.4.3 技术框架 103
3.5 小结 104
第4 章 迁移框架 . 105
4.1 数据工作流现代化 .105
4.1.1 全局观 105
4.1.2 工作流现代化 .106
4.1.3 工作流自身的改造 108
4.2 四步走迁移框架 .109
4.2.1 准备和发现 . 110
4.2.2 评估和规划 . 110
4.2.3 执行 . 113
4.2.4 优化 . 115
4.3 评估迁移方案的总成本 116
4.3.1 审计现有基础设施 116
4.3.2 索取信息、建议和报价 . 117
4.3.3 概念验证和最小可行产品 118
4.4 建立安全和数据治理机制 . 119
4.4.1 框架 . 119
4.4.2 成果 .121
4.4.3 数据生命周期的治理工作 122
4.5 架构、流水线和数据迁移 .124
4.5.1 架构迁移 124
4.5.2 流水线迁移 .125
4.5.3 数据迁移 127
4.5.4 迁移阶段 132
4.6 小结 134
第5 章 构建数据湖 137
5.1 数据湖和云完美结合 137
5.1.1 数据湖本地部署的难点 .137
5.1.2 云数据湖的优点 138
5.2 设计和实现 139
5.2.1 批处理和流处理 139
5.2.2 数据目录 141
5.2.3 Hadoop 生态 143
5.2.4 云数据湖参考架构 144
5.3 集成数据湖:真正的超级力量 149
5.3.1 用API 扩展数据湖 149
5.3.2 数据湖演化:Apache Iceberg、Apache Hudi 和 Delta Lake 149
5.3.3 用笔记本
前言/序言
前言
数据平台是什么?你为何需要它?构建数据和机器学习(ML)平台都涉及哪些内容?你为何应该在云端构建平台?做数据和机器学习项目,总会遇到这些常见问题。本书从解答这些问题入手,接着规划平台开发的战略旅程。我们建议你按该旅程在自己的业务中构建数据和机器学习能力。我们将介绍如何执行该战略的每一步,并将所有概念都整合到一个典型的数据现代化案例之中。
你为何需要云数据平台?
试想贵司首席技术官(CTO)正欲新建一移动端友好的电商网站。“我们失去业务,”他振振有词道,“还不是因为我们网站没适配手机,尤其是没考虑到亚洲语言区的使用习惯。”
CTO 所讲现有网站在移动端用户体验不佳这一点,首席执行官(CEO)非常认同,但她想弄清楚平台的移动端客户在总客户群中是否形成一个能盈利的细分市场。于是,她给亚洲区运营负责人打电话,询问:“我们电商网站手机客户的收入和利润率各是多少?如增加用手机购买的人数,下一年的总收入会有怎样的变化?”
亚洲区负责人该如何回答这个问题?要回答这个问题,需有能力关联客户访问(确定HTTP 请求的来源)、客户购买(了解他们所购商品)和采购信息(确定所购商品的成本)。除此之外,还要有能力预测细分市场的增长情况。地区负责人要找信息技术(IT)部,请他们从不同数据源拉取必要信息,并编写程序计算这些统计数据吗? IT 部门具备回答这个问题的带宽和做预测分析的技能吗?
如该机构拥有数据平台,情况会有多大改善?如有数据平台,所有数据均已采集和清洗到位,全机构可直接拉数据做分析和合成所需数据。数据分析师团队只需运行交互式即席查询。他们还可利用平台内置的AI 能力,轻松预测收入和流量模式,或检索其预测结果,并以数据驱动决策,确定是否响应CTO 的要求,投资建设移动端友好的新站点。
为解答CEO 的问题, 可购买和部署一套实时用户监控(real-time user monitoring,RUM)工具。这类专用工具非常多,这种一次性决策都有一款合适的工具。但拥有一个数据平台,机构就能解答很多这样的一次性问题,再无需采购和安装一堆专门解决方案。
当今机构日益渴求以数据驱动决策。我们所举例子聚焦的是一次性决策。但在很多情况下,机构期望针对每笔交易都能反复自动决策。例如,机构可能想判断购物车是否有弃车风险,以立即向客户推送低价商品,帮其跨过免运费门槛。这些商品必须能吸引具体的购物者,因而需要扎实的分析和机器学习能力。
基于数据作决策,机构需要一个能简化如下工作的数据和机器学习平台:
? 获取数据。
? 运行交互式即席查询。
? 创建报告。
? 根据数据自动决策。
? 企业服务个性化。
为获得上述所有能力,需克服技术障碍。如本书所讲,云平台能减少这些障碍:有了它就能从任何地方访问数据,执行快速、大规模查询,甚至在边缘设备上也可以,而且还能利用提供多种分析和AI 能力的服务。然而,要实现这样一个平台,需多个构建模块,而将这些模块开发和安装到位,有时是一个复杂的旅程。本书旨在帮读者更好地理解这些主要概念、架构模式和可用工具,以搭建现代云数据平台,洞察和控制公司数据,作出更有意义和自动化程度更高的业务决策。
我们几位作者都是拥有多年工作经验的工程师,一直在帮不同地区、不同行业的企业构建数据和机器学习平台。这些企业期望从数据获取洞察力,但往往面临很多挑战,难以拿到适合他们快速分析的所有必要数据。因而,他们发现自己必须构建一个现代化数据和机器学习平台。
目标读者
本书是为那些期望在自己业务中通过利用公有云技术构建数据和机器学习平台来支持数据驱动决策的架构师而写。数据工程师、数据分析师、数据科学家和机器学习工程师,有可能在这些系统上从事开发工作,阅读本书,有助于理解其概念设计。
原本就从事数字业务的数字原生公司,数年以来持续构建和开发这类平台,驱动业务决策。
早在2016 年,Twitter 公司就曾解释(https://oreil.ly/OwTy4)其数据平台团队维护“多个系统,为实现多种业务目标而支持并管理数据的生产和消费,其中包括公开指标、推荐、A/B 测试、广告定向投放等。”回到2016 年,其工作还包括维护当时世界上最大的Hadoop 集群。到2019 年,这项工作职责改成将支持云原生数据仓库解决方案(https://oreil.ly/xeud3)也包括在内。
再举一例,Etsy 公司表示(https://oreil.ly/4vckj)其机器学习平台团队“开发和维护技术基础设施,支持机器学习实验,方便Etsy 机器学习实操者大规模构建原型、训练和部署机器学习模型。”
Twitter 和Etsy 都已构建现代化数据和机器学习平台。这两家公司的平台不同,支持的数据、员工和业务用例类型也不同,但基本方法非常相似。本书将介绍如何构建可赋予你们工程师如下能力的现代化数据和机器学习平台:
? 从多