内容简介
《数据时代大数据技术发展与实践》全书共分为七章,首章是绪论,对大数据基础、大数据的发展现状与趋势进行简要论述;第二章是大数据的数据获取,对数据分类与数据获取组件、网页采集与日志收集、探针在数据获取中的原理和作用、数据分发中间件的作用分析进行介绍;第三章是大数据的技术支撑,对云计算与大数据、云资源的管理与调度、云存储系统的技术与分类、虚拟化技术的发展、开源云管理平台——Open-Stack进行论述;第四章是基于Hadoop的大数据平台的实现,对基于大数据的技术的数字媒体平台建设、基于Hadoop的金融大数据平台架构、电信运营商大数据平台的实现、大数据平台安全与隐私保护进行论述;第五章是大数据应用的相关技术,对数据收集与预处理技术、大数据处理的开源技术工具、常用数据挖掘方法、半结构化大数据挖掘、大数据应用中的智能知识管理进行分析论述;第六章是现代大数据应用的总体架构和关键技术,对大数据应用的总体架构、大数据存储和处理技术、大数据查询和分析技术进行分析;第七章是云时代的大数据技术应用案例,对大数据技术在铁路客运旅游平台的应用、基于可持续发展的大数据应用、大数据技术在出版物选题与内容框架筛选中的应用进行介绍。
笔者多年来一直对数据时代大数据技术发展与实践等方面进行研究,不断探索数据时代大数据技术发展与实践的新研究方向。书中有笔者多年来的教学经验,运用了相当多的文献资料,力求内容翔实,可满足各个层次的读者需求。
目录
第一章 绪论
第一节 大数据基础介绍
第二节 大数据的发展现状与趋势
第二章 大数据的数据获取
第一节 数据分类与数据获取组件
第二节 网页采集与日志收集
第三节 探针在数据获取中的原理和作用
第四节 数据分发中间件的作用分析
第三章 大数据的技术支撑
第一节 云计算与大数据
第二节 云资源的管理与调度
第三节 云存储系统的技术与分类
第四节 虚拟化技术的发展
第五节 开源云管理平台——OpenStack
第四章 基于Hadoop的大数据平台的实现
第一节 基于大数据的技术的数字媒体平台建设
第二节 基于Hadoop的金融大数据平台架构
第三节 电信运营商大数据平台的实现
第四节 大数据平台安全与隐私保护
第五章 大数据应用的相关技术
第一节 数据收集与预处理技术
第二节 大数据处理的开源技术工具
第三节 常用数据挖掘方法
第四节 半结构化大数据挖掘
第五节 大数据应用中的智能知识管理
第六章 现代大数据应用的总体架构和关键技术
第一节 大数据应用的总体架构
第二节 大数据存储和处理技术
第三节 大数据查询和分析技术
第七章 云时代的大数据技术应用案例
第一节 大数据技术在铁路客运旅游平台的应用
第二节 基于可持续发展的大数据应用
第三节 大数据技术在出版物选题与内容框架筛选中的应用
参考文献
前言/序言
由于互联网和信息技术的快速发展,大数据越来越引起人们的关注,已经引发自互联网、云计算之后IT行业的又一大颠覆性的技术革命。面对信息的激流、多元化数据的涌现,大数据已经为个人生活、企业经营甚至国家与社会的发展都带来了机遇和挑战,成为IT信息产业中最具潜力的蓝海。人们用大数据来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营信息、互联网世界中的商品物流信息,以及互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的发展方向。
随着云时代的来临,大数据吸引了更多人的关注。大数据通常用来形容一个公司创造的大量结构化和半结构化数据,这些数据在下载到关系数据库中用于分析时,会花费过多的时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数百甚至数千台计算机分配工作。关于大数据有许多种定义,多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力。换言之,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型。大数据多用来描述为更新网络搜索索引需要同时进行指量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不仅用来描述大量的数据,还涵盖了处理数据的速度。
全书共分为七章,第一章是绪论,对大数据基础、大数据的发展现状与趋势进行简要论述;第二章是大数据的数据获取,对数据分类与数据获取组件、网页采集与日志收集、探针在数据获取中的原理和作用、数据分发中间件的作用分析进行介绍;第三章是大数据的技术支撑,对云计算与大数据、云资源的管理与调度、云存储系统的技术与分类、虚拟化技术的发展、开源云管理平台——Open-Stack进行论述;第四章是基于Hadoop的大数据平台的实现,对基于大数据的技术的数字媒体平台建设、基于Hadoop的金融大数据平台架构、电信运营商大数据平台的实现、大数据平台安全与隐私保护进行论述;第五章是大数据应用的相关技术,对数据收集与预处理技术、大数据处理的开源技术工具、常用数据挖掘方法、半结构化大数据挖掘、大数据应用中的智能知识管理进行分析论述;第六章是现代大数据应用的总体架构和关键技术,对大数据应用的总体架构、大数据存储和处理技术、大数据查询和分析技术进行分析;第七章是云时代的大数据技术应用案例,对大数据技术在铁路客运旅游平台的应用、基于可持续发展的大数据应用、大数据技术在出版物选题与内容框架筛选中的应用进行介绍。
笔者多年来一直对数据时代大数据技术发展与实践等方面进行研究,不断探索数据时代大数据技术发展与实践的最新研究方向。书中有笔者多年来的教学经验,运用了相当多的文献资料,力求内容翔实,可满足各个层次的读者需求。
本书在撰写过程中,参考了大量的资料与文献,同时得到了许多专家学者的帮助和指导,在此表示真诚的感谢。因笔者水平有限,书中难免有疏漏之处,希望同行学者和广大读者予以批评指正,以求进一步完善。