内容简介
《数据可视化(第三版)》在继承了前两版核心理念和系统框架的基础上,融入了近年来数据可视化领域的前沿发展动态和最新实践成果,并将数据可视化基础图像的种类扩充到42种,丰富了图像体系。对每种数据可视化基础图像,《数据可视化(第三版)》都进行了细致深入的阐述和优化,并增加了6个精心设计的数据可视化综合实验。《数据可视化(第三版)》还同步推出了数字版教材,数字版中将所有图像进行了全彩化处理,并且补充了课程视频、在线小测验等辅助学习功能,从而能为读者带来更加丰富、立体且高效的学习体验。
精彩书摘
                                                          第一部分 数据可视化概论
  当今互联网和社交媒体的普及使得数据出现了爆发式的增长。根据国际数据公司(IDC)的估算,仅到2015年为止,全球的数据增长速度已是2012年的两倍,年数据总量已经达到惊人的5.6ZB(1ZB=10243TB),这一数字在2020年增长到44ZB。这是什么概念?按照2020年世界人口76亿来计算,平均每人拥有的数据量为6.2TB。照此速度,将会有异常庞大的数据等待我们处理和利用。。我们将如何面对这样的数据风暴呢?
  有研究发现大脑处理视觉的速度比文字快6万倍,这使人更容易利用可视化来理解数据的意义。数据中包含的结构趋势和相关信息很难通过文字描述被察觉,但它们在可视化图表中却一目了然。随着数据量的扩大和数据结构的复杂化,如何进行可视化对我们来说仍然是极大的挑战而这正是本书希望帮助大家解决的问题。在此之前,让我们首先了解一下数据可视化的价值以及它是如何帮助我们了解这个世界的。
  本部分由两章组成,将主要介绍以下内容:
  DIKW体系
  数据可视化的作用
  什么是数据可视化
  数据可视化的历史
  数据可视化的优势
  数据可视化的应用场景
  1 数据可视化在DIKW体系中的作用
  几千年来人类的智慧从未停止发展与更新的脚步。例如,20世纪末到21世纪初,得益于互联网的蓬勃发展,企业的决策不再仅仅依赖于管理者的经验和远见。一种通过收集、处理、分析数据从而帮助企业进行决策的新兴模式应运而生。与此同时,像谷歌、百度、腾讯、脸书这样拥有大规模数据资源的互联网企业开始利用数据获得前所未有的发展。正是这些依靠数据进行决策的模式和拥有数据资源的互联网企业所获得的成功促进着数据科学技术的发展,从而推动大数据时代的到来。那么,人们是如何利用数据来创造新的智慧的呢?
  在回答这个问题之前,我们必须首先搞清楚几个重要的概念数据、信息、知识、智慧。这4个概念可以帮助我们了解数据这个原材料如何最终变成人类的智慧,它们是进行数据可视化的出发点。与此同时,我们需要知道这些概念之间是如何进行转换的,这样才能清楚知道数据可视化在其中起到的作用。
  1.1 DIKW体系
  “数据”“信息”“知识”“智慧”这4个词来源于DIKW体系(即Data,Information,Knowledge,Wisdom)。DIKW体系的来源可以追溯至托马斯.斯特尔那斯艾略特所写的诗《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪里丢失了信息中的知识?”哈蓝·克利夫兰据此于1982年12月在《未来主义者》杂志中的文章《资讯有如资源》的基础上构建了这个体系。后来这个体系得到米兰.瑟兰尼及罗素.艾可夫不断的扩展。DIKW体系将数据、信息知识、智慧纳人一种金字塔形的层次体系,每一层相比下一层都被赋予了新的特质。我们从原始观察及量度中获得数据;给数据赋予知识体系和背景中获得了信息分析信息间的关系并在行动上应用信息产生了知识;智慧更加关注未来,它是对知识的归纳和升华。
  对于数据、信息、知识和智慧的定义非常多,并且大部分都不尽相同。我们这里将从数据科学、计算机科学以及统计学的综合角度去分析和解释它们。在对它们进行逐一讨论之前,我们首先必须明白它们与数据可视化之间的关联:数据可视化的主要目的是从数据或信息中获得智慧,也就是获得数据背后隐藏的真理。对以上4个概念的分析,很多来源于传统的心理学或认知科学,大家可以找到很多相关文献,但本书提到的这4个概念均是在数据科学的背景下进行讨论的。
  1.1.1 数据
  数据是什么?这个问题归根结底需要由使用它的人来回答。虽然数据和稍后讨论的信息在某种意义上有一定的关联性,但实际上数据无外乎就是客观事实的某种数字化表达。数据就像积木一样,通过不同方式进行组织和搭建,然后变成信息来帮助我们回答相应的问题。
  ……
                                                    
目录
                                                        第一部分 数据可视化概论
1 数据可视化在DIKW体系中的作用 (3)
1.1 DIKW体系 (3)
1.2 数据可视化的作用 (5)
[小测验] (6)
2 数据可视化的价值 (8)
2.1 什么是数据可视化 (8)
2.2 数据可视化的历史 (9)
2.3 数据可视化的优势 (11)
2.4 数据可视化的应用场景 (12)
[小测验] (13)
第二部分 如何做好数据可视化
3 什么是好的数据可视化 (19)
3.1 视觉感知 (19)
3.2 视觉通道 (20)
3.3 好的数据可视化 (23)
[小测验] (23)
4 数据可视化的一般流程 (25)
4.1 数据收集、处理与分析 (25)
4.2 数据可视化展示 (26)
4.3 数据可视化叙事 (29)
[小测验] (30)
5 常用数据可视化工具 (31)
5.1 Python中的Matplotlib库 (31)
5.2 Python中的Seaborn库 (34)
5.3 Python中的Pyecharts库 (36)
5.4 其他数据可视化工具 (37)
[小测验] (40)
第三部分 数据可视化基础图像与叙事
6 比较与排序类可视化图像 (45)
6.1 柱状图 (45)
6.2 环形柱状图 (48)
6.3 词云图 (51)
6.4 马赛克图 (54)
6.5 哑铃图 (56)
6.6 子弹图 (57)
6.7 雷达图 (60)
6.8 平行坐标图 (63)
6.9 比较与排序类可视化图像总结 (66)
[小测验] (68)
7 局部与整体类可视化图像 (70)
7.1 维恩图 (70)
7.2 饼图 (72)
7.3 环形图 (74)
7.4 旭日图 (76)
7.5 圆堆积图 (78)
7.6 矩形树图 (80)
7.7 漏斗图 (82)
7.8 整体与局部可视化图像总结 (85)
[小测验] (85)
8 分布类可视化图像 (88)
8.1 直方图 (88)
8.2 密度图 (91)
8.3 二维密度图 (94)
8.4 热力图 (97)
8.5 箱线图 (100)
8.6 小提琴图 (102)
8.7 嵴线图 (105)
8.8 分布类可视化图像总结 (108)
[小测验] (109)
9 时间趋势类可视化图像 (111)
9.1 折线图 (111)
9.2 面积图 (113)
9.3 地平线图 (116)
9.4 河流图 (118)
9.5 瀑布图 (121)
9.6 烛形图 (123)
9.7 时间趋势类可视化图像总结 (126)
[小测验] (129)
10 地理特征类可视化图像 (132)
10.1 气泡地图 (132)
10.2 地理热力图 (135)
10.3 分级地图 (137)
10.4 变形地图 (139)
10.5 关联地图 (142)
10.6 地理特征类可视化图像总结 (144)
[小测验] (145)
11 相关类可视化图像 (147)
11.1 散点图 (147)
11.2 气泡图 (150)
11.3 相关矩阵图 (152)
11.4 相关矩阵热力图 (154)
11.5 相关类可视化图像总结 (157)
[小测验] (158)
12 网络关系类可视化图像 (159)
12.1 网络图 (159)
12.2 弧形链接图 (162)
12.3 环形链接图 (165)
12.4 和弦图 (167)
12.5 桑基图 (170)
12.6 网络关系图总结 (172)
[小测验] (174)
13 使用数据可视化讲述故事 (176)
13.1 主动式叙事 (177)
13.2 互动式叙事 (178)
[小测验] (180)
第四部分 数据可视化案例与综合实验
附录:Python使用基础 (222)
                                                    
试读
                                                          第一部分 数据可视化概论
  当今互联网和社交媒体的普及使得数据出现了爆发式的增长。根据国际数据公司(IDC)的估算,仅到2015年为止,全球的数据增长速度已是2012年的两倍,年数据总量已经达到惊人的5.6ZB(1ZB=10243TB),这一数字在2020年增长到44ZB。这是什么概念?按照2020年世界人口76亿来计算,平均每人拥有的数据量为6.2TB。照此速度,将会有异常庞大的数据等待我们处理和利用。。我们将如何面对这样的数据风暴呢?
  有研究发现大脑处理视觉的速度比文字快6万倍,这使人更容易利用可视化来理解数据的意义。数据中包含的结构趋势和相关信息很难通过文字描述被察觉,但它们在可视化图表中却一目了然。随着数据量的扩大和数据结构的复杂化,如何进行可视化对我们来说仍然是极大的挑战而这正是本书希望帮助大家解决的问题。在此之前,让我们首先了解一下数据可视化的价值以及它是如何帮助我们了解这个世界的。
  本部分由两章组成,将主要介绍以下内容:
  DIKW体系
  数据可视化的作用
  什么是数据可视化
  数据可视化的历史
  数据可视化的优势
  数据可视化的应用场景
  1 数据可视化在DIKW体系中的作用
  几千年来人类的智慧从未停止发展与更新的脚步。例如,20世纪末到21世纪初,得益于互联网的蓬勃发展,企业的决策不再仅仅依赖于管理者的经验和远见。一种通过收集、处理、分析数据从而帮助企业进行决策的新兴模式应运而生。与此同时,像谷歌、百度、腾讯、脸书这样拥有大规模数据资源的互联网企业开始利用数据获得前所未有的发展。正是这些依靠数据进行决策的模式和拥有数据资源的互联网企业所获得的成功促进着数据科学技术的发展,从而推动大数据时代的到来。那么,人们是如何利用数据来创造新的智慧的呢?
  在回答这个问题之前,我们必须首先搞清楚几个重要的概念数据、信息、知识、智慧。这4个概念可以帮助我们了解数据这个原材料如何最终变成人类的智慧,它们是进行数据可视化的出发点。与此同时,我们需要知道这些概念之间是如何进行转换的,这样才能清楚知道数据可视化在其中起到的作用。
  1.1 DIKW体系
  “数据”“信息”“知识”“智慧”这4个词来源于DIKW体系(即Data,Information,Knowledge,Wisdom)。DIKW体系的来源可以追溯至托马斯.斯特尔那斯艾略特所写的诗《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪里丢失了信息中的知识?”哈蓝·克利夫兰据此于1982年12月在《未来主义者》杂志中的文章《资讯有如资源》的基础上构建了这个体系。后来这个体系得到米兰.瑟兰尼及罗素.艾可夫不断的扩展。DIKW体系将数据、信息知识、智慧纳人一种金字塔形的层次体系,每一层相比下一层都被赋予了新的特质。我们从原始观察及量度中获得数据;给数据赋予知识体系和背景中获得了信息分析信息间的关系并在行动上应用信息产生了知识;智慧更加关注未来,它是对知识的归纳和升华。
  对于数据、信息、知识和智慧的定义非常多,并且大部分都不尽相同。我们这里将从数据科学、计算机科学以及统计学的综合角度去分析和解释它们。在对它们进行逐一讨论之前,我们首先必须明白它们与数据可视化之间的关联:数据可视化的主要目的是从数据或信息中获得智慧,也就是获得数据背后隐藏的真理。对以上4个概念的分析,很多来源于传统的心理学或认知科学,大家可以找到很多相关文献,但本书提到的这4个概念均是在数据科学的背景下进行讨论的。
  1.1.1 数据
  数据是什么?这个问题归根结底需要由使用它的人来回答。虽然数据和稍后讨论的信息在某种意义上有一定的关联性,但实际上数据无外乎就是客观事实的某种数字化表达。数据就像积木一样,通过不同方式进行组织和搭建,然后变成信息来帮助我们回答相应的问题。
  ……
                                                    
前言/序言
                                                          总序
  当前,以人工智能和大数据技术为代表的新一轮科技革命正在重塑全球的社会经济结构,“数据”是这个过程中最重要最有活力的生产要素。如何高效发挥大数据的作用并实现其价值成为社会各界必须面临和思考的重要问题。除实验、理论和仿真之外,新的科学研究范式——“数据科学”因此应运而生。数据科学与大数据技术同人工智能一道,将成为改变人类社会活动和改变世界的新引擎。
  世界主要发达国家已把发展数据科学与大数据技术作为提升国家竞争力维护国家安全的重大战略,加紧出台了规划和政策,围绕核心技术、顶尖人才标准规范等强化部署,力图在新一轮国际科技竞争中掌握主导权。2015年8月,我国国务院印发的《关于促进大数据发展行动纲要》明确了发展大数据的指导思想发展目标和发展任务,标志着大数据正式上升为国家核心战略。同年10月,《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》提出要“实施国家大数据战略,推进数据资源开放共享”,标志着大数据正式成为“十三五”规划的核心内容。2016年的政府工作报告中也专门提出“促进大数据、云计算、物联网广泛应用”,这就意味着自2014年首次进入政府工作报告以来,大数据连续三年受到我国政府的高度关注。在党的十九大报告中,习总书记强调要推动互联网、大数据人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳爿享经济、现代供应链、人力资本服务等领域培育新增长点,形成新动能。2017年,国务院印发的《新一代人工智能发展规划》中指出,要抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,并提出了我国人工智能发展的重点任务之一就是加快培养人工智能高端人才。然而在我国数据科学与大数据技术、人工智能领域发展过程中仍旧面临着众多制约因素。
  在国务院印发的《新一代人工智能发展规划的重点任务中,明确提出要研究统计学习基础理论、不确定性推理与决策分布式学习与交互、隐私保护学习小样本学习、深度强化学习、无监督学习、半监督学习、主动学习等学习理论和高效模型并统筹布局概率统计、深度学习等人工智能范式的统一计算框架平台和人工智能创新平台。
  数据科学与大数据技术是一个需要具备多方面学科知识背景并涉及多个应用领域的交叉专业。当前我国共有280多所高校在工学和理学学科广]类中开设数据科学与大数据技术本科专业,培养掌握统计学计算机科学、数学等主要知识符合国家发展战略的重大需求的高级人才。相对于其他成熟的本科专业,数据科学与大数据技术人才的稀缺成为制约大数据领域发展的重要因素,是当前亟须解决的重大问题。
  数据科学与大数据技术本科专业的建设实际上是一场教育革命,是受业界需求驱动形成的,其理论基础、课程体系和知识结构框架均处于探索阶段。但有一点非常明确,“实践”是学习该专业最重要最高效的方式,这也成为本套教材——“普通高等教育数据科学与大数据技术专业‘十三五’规划教材”的编写导向。这不仅需要学生夯实统计学、应用数学以及计算机科学等学科的基础,也需要学生具备大数据所服务行业的相关知识积累和实践经验。只有掌握多学科融会贯通的能力,才能真正成为一个有思想的数据科学家。
  为了探索学科人才培养模式,北京大学、中国人民大学、中国科学院大学、中央财经大学和首都经济贸易大学在2014年共同搭建了“大数据分析硕士”培养协同创新平台。在不断的摸索中,一套科学完整的课程体系逐渐建立起来。随后,相关课程也在全国多所院校中实施,成为我国大数据技术高端人才培养体系的蓝本。
  为紧跟科学技术的发展潮流,引领中国大数据理论、技术、方法与应用在北京大数据协会及相关机构的组织下,开展了教材编写的大量前期国内外调研工作并于2017年6月在云南举办了“第一届全国数据科学与大数据技术本科专业建设研讨会”,展示了调研成果,为中国数据科学与大数据技术人才培养奠定了基础。为进一步厘清该专业的培养方案和课程内容建设的目标和路径,从培养方案、课程体系、培养过程教材建设等方面深入交流探讨,于2019年5月在北京召开了“第二届全国数据科学与大数据技术本科专业建设研讨会”,会上正式发布了本套系列教材。
  本套教材凝聚了全国相关院校数据科学与大数据技术领域著名专家和学者的智慧和力量。在教材编写过程中更加关注的是数据分析思想的引导,体现数据分析的艺术,侧重于从数据和案例出发,厘清数据分析的基本思路,这样能够让读者更好地理解各种假设、公式、定理和模型背后的逻辑。为了结合现实需求,每本教材均配套相关的Python编程代码,让读者在练中学学中练的过程中夯实基础,积累经验,提升竞争力。尽管编写人员投入了大量的心血但教材内容还需不断突破和完善,希望能够得到各位专家和同行的批评指正,共同实现此套教材满足教学需求的编写宗旨。
  本套系列教材是集体创作的成果。感谢编委会成员和其他编写
                                                    
                      

                   


















