内容简介
在两位顶尖数据科学家的引导下,你将系统了解LLM前沿技术的更新进展,学习理论知识,以最负责任的方式将LLM技术融入商业场景;将构建一个LLM驱动的应用,直观感受框架的实际运作,掌握数据版本控制、实验跟踪、模型监控和伦理等知识点。
本书旨在为不同层级的数据领域从业者提供助力,使用前沿技术与方法论,全方位呈现LLM应用,介绍上佳技术实践。通过“数据优先”视角,识别整合LLM并驱动业务成功的机会。
目录
第1章 现代机器学习简介 1
1.1 数据科学与商业智能渐行渐远 2
1.2 从CRISP-DM过渡到最新的多组件ML系统 3
1.3 LLM提升了ML的能力和复杂度 5
1.4 你能从本书中学到哪些知识 6
第2章 一种端到端的方法 9
2.1 YouTube搜索智能体的组件 11
2.2 生产中使用的ML系统的核心原则 13
2.2.1 可观察性 14
2.2.2 可再现性 15
2.2.3 互操作性 15
2.2.4 可扩展性 16
2.2.5 可改进性 17
2.2.6 关于工具的注意事项 18
第3章 以数据为中心 19
3.1 基础模型的出现 19
3.2 现成组件的角色 20
3.3 数据驱动的方法 21
3.4 有关数据伦理的注意事项 22
3.5 构建数据集 23
3.5.1 使用向量数据库 25
3.5.2 数据版本控制和管理 38
3.5.3 开始使用数据版本控制工具 41
3.6 适度了解数据工程知识 45
第4章 LLM 47
4.1 选择LLM 47
4.1.1 我需要执行哪种类型的推理 49
4.1.2 这项任务是通用的还是专用的 50
4.1.3 数据的隐私级别有多高 50
4.1.4 该模型需要多高的成本 51
4.2 LLM实验管理 52
4.3 LLM推理 56
4.3.1 提示工程的基本原理 56
4.3.2 上下文学习 58
4.3.3 中间计算 64
4.3.4 RAG 67
4.3.5 智能体技术 71
4.4 用Comet ML优化LLM推理 77
4.5 微调LLM 84
4.5.1 微调LLM的时机 84
4.5.2 量化、QLoRA和参数高效微调 85
4.6 本章小结 90
第5章 合成一个完整的应用 91
5.1 用Gradio得到应用的雏形 93
5.2 使用Plotnine创建图形 94
5.2.1 添加选择框 102
5.2.2 添加徽标 103
5.2.3 添加选项卡 103
5.2.4 添加标题和副标题 104
5.2.5 更改按钮的颜色 104
5.2.6 添加下载按钮 105
5.2.7 将组件合在一起 105
5.3 将模型部署为API 107
5.3.1 用FastAPI实现API 109
5.3.2 实现Uvicorn 111
5.4 监控LLM 111
5.4.1 用Docker部署服务 113
5.4.2 部署LLM 115
5.5 小结 119
第6章 完成ML生命周期 121
6.1 部署一个简单的随机森林模型 121
6.2 模型监控简介 125
6.3 用Evidently AI监控模型 131
6.4 构建模型监控系统 134
6.5 有关监控的总结 141
第7章 最佳实践 143
7.1 第一步:理解问题 143
7.2 第二步:选择和训练模型 144
7.3 第三步:部署和维护 145
7.4 第四步:协作与沟通 148
7.5 LLM的发展趋势 149
7.6 进一步的研究 150
前言/序言
欢迎你踏上现代ML(机器学习)之旅,此次旅程将充满活力!过去,数据科学多应用于商业智能工作,而如今,处理数据的方式已经大相径庭,多使用前沿的多组件系统。
希望本书能让你爱不释手。本书没有罗列方法,也不是一本全面介绍ML的书籍。本书旨在讲述现代ML相关的挑战,将重点介绍数据版本控制、实验跟踪、生产后模型监控和部署,并提供代码和示例,以便你能立即上手。
第1章讲述基础知识,揭示管理机器学习的工作流程如何从CRISP-DM等传统的线性框架演变为LLM(大语言模型)驱动的应用。强调需要利用一个统一的框架来构建基于LLM的应用。
第2章将带你见证一种端到端的ML方法,探索生命周期、生产级ML系统的原理和LLM应用的核心。
第3章阐述“以数据为中心”的观点,强调数据在现代ML中的作用。该章需要你动手练习,将创建embedding(嵌入)并用向量数据库进行文本相似度搜索。将道德准则和数据版本控制策略结合起来,以确保你采取负责任的一体化方法。
第4章将引导你选择正确的LLM、利用LangChain并微调LLM性能。
在第5章中,将组件组装在一起,从原型过渡到应用。该章还演示如何构建仪表盘和API(应用程序编程接口),使你的模型可为最终用户提供结果。
第6章将完成ML的生命周期,对模型进行监控、重训练管道,并规划未来的部署策略,分析如何与利益相关者沟通。
最后,在第7章中,回顾了在整个过程中总结的最佳实践,探讨了LLM的新趋势,并提供了资源供你进一步学习。
本书不仅是一本指南——它是一次冒险,是一次穿越现代ML风景区的邀约,也是一次为你配备导航工具,让你汲取知识的机会。所以,朋友们,系好鞋带,让我们踏上旅途吧!
下载示例代码
读者可扫描封底二维码,下载配套的示例代码。