大数据采集与处理

大数据采集与处理

评分

★★★★★

ISBN

9787121420115

出版社

电子工业出版社 2021-09-01出版

作者

张雪萍

分类

数据库

内容简介
本书是一本专门论述大数据采集与处理相关技术及应用的著作,也是一线研发工程师的实战经验结晶。本书依次介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等相关内容,并结合大数据应用各行业背景,介绍了电商、煤炭、教育、医疗、电信、交通等行业的大数据采集与处理。最后,本书以某电商网站数据分析为背景,介绍一个完整的数据采集、清洗、处理的离线数据分析案例,以期给读者展示一个系统的实践操作过程。与本书所述技术相关的论著较少,所著内容新颖、系统全面、实践指导性强。
AI简介
这是一本全面而深入的著作,涵盖了大数据产生背景与概念、网络爬虫技术、数据采集与大数据采集对比、Hadoop框架及特性、HDFS分布式文件系统、MapReduce计算框架、Hive数据仓库概述、Hive的系统架构、Pregel图计算模型介绍、数据清洗的方法、Spark SQL的简介与功能、大数据预处理的重要性、ElasticSearch的分布式存储机制、NoSQL数据库概述、实战豆瓣图书信息爬虫项目、流计算的概念和产生背景等多个方面的内容。 本书首先介绍了大数据产生背景与概念,强调了大数据在当今社会的重要性和价值。接着,深入讲解了网络爬虫技术,包括其原理、实现方法以及在各个领域的应用。书中还对数据采集与大数据采集对比进行了详细的分析,帮助读者理解两者之间的差异和联系。 在介绍Hadoop框架时,本书详细阐述了Hadoop框架及特性,包括其核心组件、特性以及在大数据处理中的应用。同时,对HDFS分布式文件系统和MapReduce计算框架进行了深入的剖析,揭示了它们在大数据存储和计算方面的优势。 此外,本书还详细介绍了Hive数据仓库概述和Hive的系统架构,包括其工作原理、基本操作以
阅读/下载地址