内容简介
本书是一本专为数据科学和信息技术学习者策划编写的教材,全书共分为6个核心项目,主要包括数据采集理论知识、数据采集环境搭建、利用网络爬虫技术进行数据采集、使用Web API采集数据、使用Kettle迁移和采集数据,以及数据存储。每个项目都旨在使读者能够将理论知识应用于实践中,并在实践过程中掌握数据采集的关键技术和工具。书中内容涵盖数据采集的各个环节,从基础概念到实际应用,系统性强,操作性强。
本书的特点是具备实用性和技术前沿性,适合大中专院校师生、行业专业人士以及对数据采集技术感兴趣的自学者。
目录
项目1 数据采集理论知识
任务1 大数据相关概念及特征
任务2 数据采集概述
项目2 数据采集环境搭建
任务1 安装Python
任务2 安装JDK
项目3 利用网络爬虫技术进行数据采集
任务1 网络爬虫基础知识
任务2 使用Requests爬取静态网页
任务3 使用BeautifulSoup库解析网页
任务4 使用Scrapy爬虫框架采集数据
项目4 使用Web API采集数据
任务1 GitHub
任务2 Web API
项目5 使用Kettle迁移和采集数据
任务1 Kettle介绍
任务2 使用Kettle进行数据迁移
任务3 利用Kettle建立作业,定时执行转换
项目6 数据存储
任务1 MySQL数据库的安装与配置
任务2 CSV格式
任务3 JSON格式



















